JPH0424697A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0424697A
JPH0424697A JP2129604A JP12960490A JPH0424697A JP H0424697 A JPH0424697 A JP H0424697A JP 2129604 A JP2129604 A JP 2129604A JP 12960490 A JP12960490 A JP 12960490A JP H0424697 A JPH0424697 A JP H0424697A
Authority
JP
Japan
Prior art keywords
voice
signal
input
spectrum
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2129604A
Other languages
English (en)
Inventor
Hideji Morii
森井 秀司
Seiji Hiraoka
平岡 省二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2129604A priority Critical patent/JPH0424697A/ja
Publication of JPH0424697A publication Critical patent/JPH0424697A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声を認識して機械の操作等を行うために用
いる音声認識装置に関するものである。
従来の技術 従来、音声認識装置の構成として、例えば、[音声情報
工学J (p、150小池他、NTT技術移転株式会社
発行)に記載されているように、標準パターンをあらか
じめ記憶しておいて、標準パターンと入力音声との類似
度を調べ、認識判定を行うものが良く知られている。
第2図は、単語単1位の標準パターンを用いた場合の構
成を示したもので、標準パターンとして単語辞書23に
記憶されている単語音声の特徴パラメータの時系列と、
特徴抽出部21で抽出される入力音声の特徴パラメータ
の時系列とを単語認識部22で比較し最も高い類似度が
得られる標準パターンに相当する単語を認識結果とする
ものである。
また、第3図は、単語よシ小さい音素や音節を単位とす
る標準パターンと単語辞書を組合せた場合の構成を示し
たものである。この構成では、特徴抽出部31で抽出さ
れる入力音声の短時間毎の特徴パラメータと、音素ある
いは音節の特徴パラメータで構成される標準パターン3
3とを音素認識部32で比較して、音素や音節単位で類
似度を求め、この類似度と単語辞書35を用いて単語と
しての認識を単語認識部34 において行うものである
音声認識装置で用いられる特徴パラメータとしては、F
FTを用いて得られるスペクトルや、スペクトルを変換
して求められるケプストラム、さらにはLPG分析で得
られる線形予測係数やLPCケプストラム係数などがよ
く用いられている。これらのパラメータは、いずれも音
声の短時間におけるスペクトル形状を表すパラメータで
ある。
このように、音声認識装置は、入力音声のスペクトル形
状と標準パターンとの類似度を統計的距離尺度などの距
離尺度によって求めることにより認識を行っている。
また、不特定話者用の音声認識装置では、多数の話者の
音声データから標準パターンを作成したものを使用する
。この場合、標準パターンは、音声または音素の特徴を
表すスペクトル情報の平均値と、話者によるバラツキを
表す共分散などで構成される。
発明が解決しようとする課題 しかしながら、従来例に示した音声認識装置では、音声
標準パターンを作成するために用いた音声入力用のマイ
クロフォンと実際に使用するマイクロフォンの周波数特
性が異なる場合や、電話回線を用いて音声を入力するな
ど音声入力の伝送経路が異なる場合などでは、入力系の
周波数特性が異なシ音声のスペクトル特性が変化する。
そのため、その音声認識装置は、一般に認識性能が低下
する。不特定話者用音声認識装置の標準パターンは多数
の話者の音声データを用いて作成し、話者による音声の
スペクトルのバラツキの情報も含まれているので、利用
者が標準パターンを作成し直すことができない。したが
って、不特定話者用音声認識装置では、利用者は、使用
するマイクロフォンが限定されてしまうなど入力系を変
えることができない。
本発明は、上記のような従来技術の課題を解決するもの
であり、使用できるマイクロフォンや、電話回線など音
声信号入力のだめの伝送経路に柔軟性を持たせた音声認
識装置を提供することを目的とするものである。
課題を解決するだめの手段 この目的を達成するために、本発明の音声認識装置は、
短時間毎に音声の信号パワーと信号スペクトルを算出す
る音声分析手段と、信号パワーを用いて音声の始端およ
び終端を検出する音声区間検出手段と、音声区間検出手
段により音声であるとされた区間の信号スペクトルの平
均を抽出する周波数特性測定手段と、周波数特性測定手
段の結果である信号スペクトルの平均に基づき音声分析
手段で算出される信号スペクトルを補正する周波数特性
補正手段と、信号パワーと補正された信号スペクトルを
用いて入力音声が表す単語や文を認識する音声認識手段
とを備えたものである。
作    用 本発明は、上記構成により、マイクロフォンが取替えら
れたり、入力伝送系が変っても、あらかじめ決められて
いる単語あるいは文音声を発音することにより、入力さ
れた音声信号のうち音声区間検出手段において音声であ
ると判定された音声信号のみの区間の平均スペクトルを
周波数特性測定手段において抽出し、音声標準パターン
を作成する際に用いた音声入力系によって得られている
同じ発音の音声の平均スペクトル特性に周波数特性補正
手段において補正するので、入力伝送系が変った場合の
音声認識装置の性能劣化を改善することができる。
また、平均スペクトルの抽出は、音声区間内の音声の部
分だけに対して行うので、信号エネルギーの小さな環境
騒音のスペクトル形状の影響が少ない正確な音声入力経
路の周波数特性の補正が実現できる。
実施例 以下、本発明の一実施例について図面を参照しながら説
明する。
第1図は、本発明の一実施例における音声認識装置を示
すブロック構成図である。本実施例は、認識の単位とし
て音素を単位とした単語音声認識装置である。
第1図において、1は入力信号の短時間毎の信号エネル
ギーとスペクトルを抽出する音声分析部、2は信号エネ
ルギーに基づき入力信号から音声の区間を判定する音声
区間検出部、3は入力信号のスペクトル特性を補正する
周波数特性補正部、4は入力信号のスペクトルの平均を
求める周波数特性測定部、5は入力信号のスペクトル情
報と音素標準パターン6との類似度を算出する音素認識
部、7は音素類似度と単語辞書8とを比較し認識単語を
決定する単語認識部、9は認識動作を開始させたり周波
数特性測定動作を開始させたりする制御部である。
以上の構成において、以下、その動作について説明する
まず、周波数特性測定動作について説明する。
周波数特性測定動作は、例えば、第1図の制御部9に設
けられた開始スイッチ(図示せず)により起動される。
この動作モードでは、発声者はあらかじめ決められた1
0程度の文音声を発生する。
発生する文音声は、音素認識部5で認識可能な音素を全
て含むように選択されたものである。
マイクロフォン等により入力された音声信号に対し、音
声分析部1において短時間毎(例えばlQms毎)に、
信号エネルギーを表す対数パワーと、FFT分析よシ得
られるパワースペクトルと位相情報が抽出される。音声
区間検出部2では、音声分析部1で得られた対数パワー
を基に音声の始端および終端を検出する。周波数特性測
定部4では、音声区間内におけるパワースペクトルの各
周波数成分毎の平均値X1 を求める。
以上の動作をあらかじめ決められた文音声の総てが発生
し終え、再び制御部9の開始スイッチが押されるまで繰
返す。そして得られた各周波数成分毎のパワースペクト
ルの平均値Xiは、周波数特性補正部3に送られる。周
波数特性補正部3では、あらかじめ格納されている音素
の標準パターンを作成する際に使用したマイクロフォン
等の入力系を使用して得られているパワースペクトルの
平均値S1と式1に示す比で表される各周波数成分毎の
補正係数N1を算出して記憶する。
N1=Si+Xi     ・・・・式1(!は周波数
を表す) 以上の処理で周波数特性測定の動作を終了する。
次に、音声認識動作について説明する。
マイクロフォン等により入力された音声信号に対し、音
声分析部1において短時間毎(例えば10m5毎)に信
号エネルギーを表す対数パワーと、FPT分析より得ら
れるパワースペクトルYi と位相情報が抽出される。
音声区間検出部2では、音声分析部1で得られた対数パ
ワーを基に音声の始端および終端を検出する。周波数特
性補正部3において、パワースペクトルYiに対して式
2に示す補正を行い、補正されたパワースペクトルH+
  を求める。
H+ = Y+ x Ni       ・・・式2補
正されたパワースペクトルH1と位相情報からケプスト
ラムCiが抽出される。音素認識部5では、得られたケ
プストラムC1と標準パターン部6に格納されている音
素毎の標準パターンとの類似度をマハラノビス距離を用
いて算出し、音素の認識系列を作成する。単語認識部7
では、音声区間検出部2で決定された音声の区間に関す
る情報と、音素認識部6で認識された音素の系列から音
声区間に対応する音素認識系列を作成し、単語辞書8に
格納されている単語毎の音素の系列との比較を行い、最
も類似の高い辞書項目を認識単語として出力する。
このように、音素標準パターンを作成するのに用いたマ
イクロフォン等の入力経路と、実際に使用する音声入力
系の周波数特性が異なっても、ある決められた音声を発
生することにより、使用しているマイクロフォンなどの
入力系と音素標準パターン作成時の音声入力系の周波数
特性の差異を抽出することができる。そして、その差異
を補正することにより、使用する音声入力系の周波数特
性を音素標準パターン作成時の音声入力系と同等の周波
数特性を得ることができるため、音声入力系の周波数特
性の違いによる音声認識装置の性能劣化を減少させるこ
とができる。
なお、上述した実施例では、音素を単位とする認識装置
について説明したが単語を認識の単位とした音声認識装
置でもよい。
発明の効果 以上のように本発明は、短時間毎に音声の信号パワーと
信号スペクトルを算出する音声分析手段と、信号パワー
を用いて音声の始端および終端を検出する音声区間検出
手段と、音声区間検出手段により音声であるとされた区
間の信号スペクトルの平均を抽出する周波数特性測定手
段と、周波数特性測定手段の結果である信号スペクトル
の平均に基づき音声分析手段で算出される信号スペクト
ルを補正する周波数特性補正手段と、信号パワーと補正
された信号スペクトルを用いて入力音声が表す単語や文
を認識する音声認識手段とを備えることにより、利用者
が使用できるマイクロフォンや、電話回線など音声信号
入力のだめの伝送経路に柔軟性を持たせることが可能と
なる。
【図面の簡単な説明】
第1図は、本発明による音声認識装置の一実施例を示す
ブロック構成図、第2図および第3図は、従来の音声認
識装置のブロック構成図である。 l・・・音声分析部、2・・・音声区間検出部、3・・
・周波数特性補正部、4・・周波数特性測定部、5・・
・音素認識部、6・・・音素標準パターン、7・・・単
語認識部、8・・・単語辞書、9・・・制御部。 代理人の氏名 弁理士 粟 野 重 孝 ほか1名区

Claims (1)

    【特許請求の範囲】
  1. 短時間毎に音声の信号パワーと信号スペクトルを算出す
    る音声分析手段と、信号パワーを用いて音声の始端およ
    び終端を検出する音声区間検出手段と、前記音声区間検
    出手段により音声であるとされた区間の信号スペクトル
    の平均を抽出する周波数特性測定手段と、前記周波数特
    性測定手段の結果である信号スペクトルの平均に基づき
    前記音声分析手段で算出される信号スペクトルを補正す
    る周波数特性補正手段と、前記信号パワーと補正された
    信号スペクトルを用いて入力音声が表す単語や文を認識
    する音声認識手段とを備えたことを特徴とする音声認識
    装置。
JP2129604A 1990-05-18 1990-05-18 音声認識装置 Pending JPH0424697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2129604A JPH0424697A (ja) 1990-05-18 1990-05-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2129604A JPH0424697A (ja) 1990-05-18 1990-05-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0424697A true JPH0424697A (ja) 1992-01-28

Family

ID=15013569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2129604A Pending JPH0424697A (ja) 1990-05-18 1990-05-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0424697A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007141923A1 (ja) * 2006-06-02 2007-12-13 Nec Corporation ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007141923A1 (ja) * 2006-06-02 2007-12-13 Nec Corporation ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
US8401844B2 (en) 2006-06-02 2013-03-19 Nec Corporation Gain control system, gain control method, and gain control program

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US6553342B1 (en) Tone based speech recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7319959B1 (en) Multi-source phoneme classification for noise-robust automatic speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPH09500223A (ja) 多言語音声認識システム
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2955297B2 (ja) 音声認識システム
JP2996019B2 (ja) 音声認識装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
Shinozaki et al. Hidden mode HMM using bayesian network for modeling speaking rate fluctuation
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
JPH0424697A (ja) 音声認識装置
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
JPH07230293A (ja) 音声認識装置
JP2006010739A (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
Khalifa et al. Statistical modeling for speech recognition
JP3029654B2 (ja) 音声認識装置
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置