JPH02198500A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02198500A
JPH02198500A JP1018765A JP1876589A JPH02198500A JP H02198500 A JPH02198500 A JP H02198500A JP 1018765 A JP1018765 A JP 1018765A JP 1876589 A JP1876589 A JP 1876589A JP H02198500 A JPH02198500 A JP H02198500A
Authority
JP
Japan
Prior art keywords
voice
speech
pattern
threshold
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1018765A
Other languages
English (en)
Inventor
Junichiro Fujimoto
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1018765A priority Critical patent/JPH02198500A/ja
Publication of JPH02198500A publication Critical patent/JPH02198500A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、話者の音声を認識する音声認識装置に関し、
特に、雑音下において発生される音声を認識する音声認
識装置に関する。
〔従来の技術〕
一般に、静かな環境下で登録した音声標準パターンの辞
書を用いて音声認識を行なわせる音声認識装置が知られ
ている。ところで、このような音声認識装置を例えば自
動車内などの騒音環境下で使用しようとする場合には、
話者の音声に雑音が混入することの他に、話者の発声の
仕方自体か変化するために、一般には精度良く音声認識
を行なわせることができない。すなわち騒音環境下では
、話者はより大きな声で発声し、静かな環境下に比べて
高い周波数のスペクトル成分か多くなるなどの所謂ラン
バード(Lanbard )効果と呼ばれる現象か生じ
、さらには例えば[全何時Jと続0て発声すべきところ
を騒音環境下では「今・な・ん・じ」のように各音を区
切って発声するので静かな環境下で音声登録パターンを
登録したときの発声に比べて発声時間が長くなるなどの
時間的変動か生する。
雑音下において発声された音声を精度良く認識させるた
め、従来では、1985年10月に発行の著者「北村」
等による文献[電子通信学会論文誌J68−A@No、
10  第1130頁乃至第1131頁」に開示されて
いるように静かな環境下で発声された音声に雑音を混入
して認識用の辞書を作り騒音環境下ではこの辞書を用い
て音声認識させるような音声認識装置や、あるいは19
86年に発行の著者[デイピッド ロー」による文献「
電子通信学会技術研究報告5P8666第41頁乃至第
48頁」に開示されているように、ベクトル量子化を用
いた音声認識でベクトルコード帳を話者か雑音中で発声
する状態を反映するように変形させるなどして記憶させ
る音声認識装置か種々提案されている。
〔発明が解決しようとする課題〕
しかしながら、静かな環境下で発声された音声に雑音を
混入して認識用の辞書を作りこの辞書を用いて音声認識
させる上述の音声認識装置では、雑音自体の影響を低減
することはできても雑音中での話者の発声の仕方に対処
するようにはなっていないので、音声を高い認識率て認
識させることができないという問題かあった。これに対
して話者か雑音中で発声する状態を反映するようにベク
トルコード帳を変形させるなどによって音声認識させる
上述の音声認識装置では、雑音自体の影響を低減しかつ
ランバード効果等のような音声の各音のスペクトルの変
動にも対処することができるが、騒音環境時における発
声の時間的変動については何ら考慮していないのて、発
声の時間が長くなることによって辞書内のパターンとの
正確なパターンマッヂングを行なうことができないとい
う問題があった。
なお上記のような問題を解決するために、静かな環境下
で音声標準パターンを登録するのでなく、騒音環境下で
音声標準パターンを辞書として登録させ、この辞書を用
いて騒音環境下での音声認識を行なわせる装置も提案さ
れたか、この場合には音声認識が実際になされるときの
騒音環境と同じ騒音環境下で辞書を作らなければならす
、このように同じ環境を作ることは、実際に装置が使わ
れる環境がその都度変化することから極めて難かしく、
また静かな環境下で発声された話者の音声を高い認識率
で認識させることか逆にできなくなってしまうという問
題があった。
本発明は、話者かどのような環境下で発声した場合にも
雑音の影響を除去しかつ発声の仕方の変化を吸収できて
音声を高い認識率で認識させることの可能な音声認識装
置を提供することを目的としている。
〔課題を解決するための手段〕
上記目的を達成するために、本発明は、音声か入力する
音声入力手段と、入力した音声を特徴量に変換する特徴
量変換手段と、特徴量変換手段で変換した特徴量を閾値
と比較し、閾値よりも大きい部分を音声認識対象のパタ
ーンとして求める比較手段と、比較手段で得られた音声
認識対象のパターンの部分なC−)を記憶する記憶手段
と、記憶手段に記憶された音声認識対象のパターンと辞
書の音声標準パターンとを照合して音声認識を行なう認
識手段とを備えていることを特徴としたものである。
〔作用〕
上記のような構成の音声認識装置では、音声入力手段か
ら入力した音声を特徴量変換手段で特徴量1例えは音声
のパワーに変換し、この特徴量と闇値とを比較手段で比
較する。比較の結果、閾値よりも大きな特徴量の部分の
みが音声認識対象のパターンとして記憶手段に記憶され
る。記憶手段に記憶された音声認識対象のパターンは、
閾値によって雑音の影響が除去され、また音声の各音間
の不要な部分か除去されて静かな環境下での発声の時間
長さとほぼ同じ時間長さのものとなり発声の仕方の変化
を吸収したものとなっている。
これにより、静かな環境下で登録した音声標準パターン
の辞書を用いた場合にも騒音環境下で発声された音声を
音声認識手段で高い認識率で認識させることができる。
なお上記閾値を環境の雑音のレベルに応じて変化させる
ようにずれは、より高い認識率を得ることかできる。
r実施例〕 以下、本発明の一実施例を図面に基づいて説明する。
第1図は本発明に係る音声認識装置の一実施例ブロック
図である。
この音声認識装置1は、音声を入力するマイクなどの音
声入力部2と、入力した音声信号を増幅する増幅部3と
、音声信号を特徴量に変換する特徴量変換部11と、特
徴量変換部11で得られた音声信号の特徴量と所定の閾
値THとを比較する比較部7と、比較の結果、所定の闇
値’I” Hよりも大きなパワーの部分を音声認識対象
のパターンとして記憶するレジスタ8と、静かな環境下
で音声標準パターンか登録されている辞書つと、レジス
タ8に記憶された音声認識対象のパターンを辞書9に登
録されている音声標準パターンと照合して音声認識を行
なう音声認識部10とを倫えている。
特徴量変換部11は、例えは、音声信号からパワースペ
クトルを分析し求めるバンドパスフィルタ群4と、音声
区間を切出す音声区間切出部5と、音声のパワーを測定
するパワー測定部6とからなっている。特徴量変換部1
1においてパワースペクトルを特徴とする求める場合に
はバンドパスフィルタ群4で分析されたパワースペクト
ルのそれぞれをパワー測定部6で加算することによって
パワーを測定しても良いし、あるいは全帯域通過フィル
タなどを用いることによってパワーを測定するようにし
ても良い。
また音声認識部10は、一般的に知られた認識方式、例
えはDPマツチングを用いたもので良い。
このような構成の音声認識装置の動作を次に説明する。
先づ静かな環境下で話者の発声した音声を測定し、これ
を音声標準パターンPWoとして辞書9内に予め登録し
ておく。第2図はこのようにして登録された音声標準パ
ターンPWoの一例を示す図であって、第2図では話者
か「今回時」と続けて発声して登録された音声信号のパ
ワーすなわち音声標準パターンPWoか図示されている
このようにして辞書9内に音声標準パターンP W o
を登録した後、静かな環境下で「今回時」と発声すると
、この音声はマイク2から入力し、増幅部3で増幅され
特徴量変換部11において特徴量1例えばパワーPW1
が測定され比較部7において測定されたパワーPW1と
閾値THとが比較される。第3図(a)には話者か発声
した「今回時」の音声のパワーPW1を閾値T Hと比
較する様子が示されている。この比較の結果、閾値TH
よりも大きなパワーの部分pw1’か第3図(b)に示
すように音声認識対象のパターンとしてレジスタ8に記
憶され、音声認識部10では、第3図(b)の音声認識
対象のパターンPW1 と辞書9に予め記憶されている
第2図の音声標準パターンPWoとを照合する。第3図
(b)の音声認識対象のパターンPW1 と第2図の音
声標準パターンPWoとはほぼ同じであるので音声「今
回時」を高い認識率で認識させることができる。
なおいまの場合、話者は静かな環境下で「今回時」と続
けて発声したので、第3図(a)に示す音声のパワーP
W1のうちで所定の閾値THよりも大きい部分を取出し
て第3図(b)のようなパターンPW1 としてもこの
パターンPW1′は第3図(a)に示す音声のパワーP
W1と時間的に差程変化していない。これによって第3
図(a)に示す音声のパワーPW1と第2図の音声標準
パターンPWoとを直接照合させてもある程度の高い認
識率を得ることはできる。
これに対して、騒音環境下では一般に話者は静かな環境
下での発声とは異なった仕方で発声しない。例えは「今
回時」と続けて発声ぜずにI今・な・ん・じ」のように
各音を区切って発声する。
第4図(a)は、騒音環境下で発声された「今・な・ん
・じ」の音声のパワーP W 2を閾値THと比較する
様子が示されている。第4図(a)を第3図(a)と比
べると、騒音環境下では、音声のパワーPW2が静かな
環境下での音声のパワーPW1に比べて大きくなりまた
スペクトルか多少変化することの他に、各音を区切って
発声するなめに発声の時間tが長くなっていることかわ
かる。従って、騒音環境下では第4図(a)に示す音声
のパワーPW と第2図の音声標準パターンPWoとを
直接照合させた場合、認識率か著しく低下する。
このように騒音環境下においては音声のパワーPW2は
静かな環境下における音声のパワーPW1と相違するか
、比較部7で音声のパワーPW2のうちで閾値T Hよ
りも大きい部分を取出しこれを第4図(b)に示すよう
な音声認識対象のパターンPW2′にしてレジスタ8に
記憶させた場合、この音声認識対象のパターンPW2′
には閾値T Hよりも低いレベルの雑音自体が取除かれ
ているのみならす、各音を区切って発声した結果の音声
認識に不要な部分p1.p2.p3を第4図(a)の音
声のパワーPW2から取除くことができて静かな環境下
における発声の時間長さとほぼ同じにすることかできる
。これにより、音声認識部10において第4図(b)に
示す音声認識対象のパターンPW2 と第2図に示す辞
書9の音声標準パターンPWoとを照合させることによ
って騒音環境下でも高い認識率で所定の認識結果を得る
ことができる。
このように上述の実施例では、話者か静かな環境下で音
声を発声してもあるいは騒音環境下で各音を区切って音
声を発声しても、いずれの場合にも、レジスタ8に記憶
される音声認識対象のパターンは発声の時間長さの変動
等の発声の仕方の変動が除去されたものとなっているの
で、静かな環境下で登録した音声標準パターンの辞書を
用いた場合にも音声を高い認識率で認識させることか可
能となる。
なお上述の実施例では、特徴量変換部11のパワー測定
部6で測定された音声のパワーを一定の閾値THと比較
しているために、音声信号のレベルの小さな部分は常に
取除かれて認識される。騒音環境下にあってはこれによ
り雑音が有効に除去されるか、静かな環境下においては
認識に有効な情報が多少失なわれることになる。従って
、より高い認識率を得るためには、閾値THのレベルを
雑音のレベルに応じて変動させるのか良い。
第5図は、闇値T Hのレベルを雑音のレベルに応じて
変動させるようにして音声認識装置の構成図であって、
第1図と同様の箇所には同じ符号を付している。第5図
の音声認識装置21では、パワー測定部6で測定のパワ
ーを閾値TH’側にあるいは比較部22側に切換えるス
イッチSWを設けている。
このような構成では、話者か発声をする前にスイッチS
Wを閾値T H’側に切換え、そのときの環境の雑音の
レベルをパワー測定部6で測定し、これを閾値TH’ 
として記憶させる。なおこの闇値TH’の記憶操作は一
般に一つの雑音環境で一回行なえば良い。閾値TH’ 
を記憶した後、スイッチSWを比較部22側に切換える
。この状態で上述した実施例と同様の動作を行なわせる
ことができて、話者か発声すると比較部22でその音声
のパワーが閾値TH’ と比較され閾値TH’ よりも
大きな部分かレジスタ8に取込まれ音声認識対象のパタ
ーンとされる。
ところで閾値TH’は話者が発声をするときの環境の雑
音に応じたレベルとなっているので、環境の雑音レベル
か変化しても比較部22では比較によって音声のパワー
からそのときの環境の雑音を忠実に取除くことかできる
。話者か静かな環境下で話者か発声するときは閾値1゛
H′は小さなものとなっているので、これにより音声信
号のレベルの小さな部分が取除かれるのを防止し、認識
に有効な情報を失なわずにより高い認識率の認識結果を
得ることかできる。
〔発明の効果〕
以上に説明したように、本発明によれば、入力した音声
を特微量に変換し、この特微量を閾値と比較して閾値よ
りも大きい部分だけを音声認識対象のパターンとして求
め記憶して、音声認識させるようにしているので、話者
がどのような環境下で発声した場合にも、その音声から
雑音の影響を除去できるとともに発声の仕方の変動を低
減した形にすることができて、音声を高い認識率で認識
させることができる。なお閾値を環境の雑音のレベルに
応じて変化させるようにすれは、より高い認識率を得る
ことができる。
【図面の簡単な説明】
第1図は本発明に係る音声認識装置の一実施例のブロッ
ク図、第2図は辞書に登録された音声標準パターンの一
例を示す図、第3図(a)は静かな環境下て発声された
音声のパワーPW1を閾値1゛Hと比較する様子を示す
図、第3図(b)は第3図(a)の比較により閾値T 
l−Iよりも大きなパワーの部分pw1” を求めこれ
をレジスタに記憶さぜなときの状態を示す図、第4図(
a)は騒音環境下で発声された音声のパワーPW2を閾
値THと比較する様子を示す図、第4図(b)は第4図
(a)の比較により閾値T T−Iよりも大きなパワー
の部分PW2′を求めこれをレジスタに記憶させたとき
の状態を示す図、第5図は閾値T Hを雑音のレベルに
応じて変化させるようにした構成の音声認識装置のブロ
ック図である。 1.21・・・音声認識装置、2・・・音声入力部、3
・・・増幅器、4・・・バンドパスフィルタ群、5・・
・音声区間切出部、6・・・パワー測定部、7.22・
・比較部、8・・・レジスタ、9・・・辞書、10・・
・音声認識部、11・・・特徴量変換部、TH’・・・
閾値、SW・・・スイッチエト■

Claims (1)

    【特許請求の範囲】
  1. 音声が入力する音声入力手段と、入力した音声を特徴量
    に変換する特徴量変換手段と、特徴量変換手段で変換し
    た特徴量を閾値と比較し、閾値よりも大きい部分を音声
    認識対象のパターンとして求める比較手段と、比較手段
    で得られた音声認識対象のパターンの部分だけを記憶す
    る記憶手段と、記憶手段に記憶された音声認識対象のパ
    ターンと辞書の音声標準パターンとを照合して音声認識
    を行なう認識手段とを備えていることを特徴とする音声
    認識装置。
JP1018765A 1989-01-27 1989-01-27 音声認識装置 Pending JPH02198500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1018765A JPH02198500A (ja) 1989-01-27 1989-01-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1018765A JPH02198500A (ja) 1989-01-27 1989-01-27 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02198500A true JPH02198500A (ja) 1990-08-06

Family

ID=11980736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1018765A Pending JPH02198500A (ja) 1989-01-27 1989-01-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPH02198500A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825870A (zh) * 2016-03-14 2016-08-03 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825870A (zh) * 2016-03-14 2016-08-03 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置

Similar Documents

Publication Publication Date Title
Gupta et al. An analysis on LPC, RASTA and MFCC techniques in Automatic Speech recognition system
AU702852B2 (en) Method and recognizer for recognizing a sampled sound signal in noise
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
KR20010005674A (ko) 인식 시스템
JPH02198500A (ja) 音声認識装置
KR100587260B1 (ko) 음향 기기의 음성인식장치
JPH07121197A (ja) 学習式音声認識方法
JPH04369698A (ja) 音声認識方式
Kumar et al. Significance of acoustic features for designing an emotion classification system
JPH032793A (ja) 音声認識用前処理装置
JPH039400A (ja) 音声認識装置
JP3346200B2 (ja) 音声認識装置
Marković et al. Recognition of Whispered Speech Based on PLP Features and DTW Algorithm
JP2666296B2 (ja) 音声認識装置
KR100349341B1 (ko) 유사단어 및 문장 인식시의 인식율 개선 방법
KR102148245B1 (ko) 문자 음성변환 시스템
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
JPH0461359B2 (ja)
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
Ito et al. Forward masking on a generalized logarithmic scale for robust speech recognition
JPS6148898A (ja) 音声の有声無声判定装置
JPH03138698A (ja) 車載用音声認識装置の入力方式
JP3065691B2 (ja) 音声認識装置
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法
JPS6227798A (ja) 音声認識装置