JP3004023B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3004023B2
JP3004023B2 JP1306477A JP30647789A JP3004023B2 JP 3004023 B2 JP3004023 B2 JP 3004023B2 JP 1306477 A JP1306477 A JP 1306477A JP 30647789 A JP30647789 A JP 30647789A JP 3004023 B2 JP3004023 B2 JP 3004023B2
Authority
JP
Japan
Prior art keywords
recognition
speech
voice
time series
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1306477A
Other languages
English (en)
Other versions
JPH03167600A (ja
Inventor
洋一 竹林
宏之 坪井
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1306477A priority Critical patent/JP3004023B2/ja
Priority to DE69026474T priority patent/DE69026474T2/de
Priority to EP90312821A priority patent/EP0430615B1/en
Publication of JPH03167600A publication Critical patent/JPH03167600A/ja
Priority to US08/794,770 priority patent/US5794194A/en
Application granted granted Critical
Publication of JP3004023B2 publication Critical patent/JP3004023B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は高騒音環境下における種々の雑音を伴った入
力音声や、単語音声等の前後に不本意な発声を伴った入
力音声を精度良く認識することのできる認識性能の高い
音声認識装置に関する。
(従来技術) 従来より、単語や文節等を認識対象とした音声認識で
は、その入力音声の始終端(音声区間を示す始端および
終端)を音声エネルギーの変化や音声ピッチの変化,或
いは零交差波等の簡単なパラメータ情報を用いて検出し
ている。そして検出された始終端点を基準として音声パ
ターン(音声特徴ベクトル)を切り出し、この音声パタ
ーン(音声特徴ベクトル)と認識対象カテゴリについて
の認識辞書とを照合して、前記入力音声が示す認識対象
カテゴリを求めることで、入力音声を認識している。
このような入力音声の始終端検出(音声区間検出)に
より、認識辞書との照合に用いる音声パターンを切り出
す処理は、音声パターンと音声認識辞書との照合処理に
必要とする演算量が非常に多大であり、その演算負担を
軽減すると共に、認識処理には直接寄与することのない
冗長な情報を省くことを目的としてなされる。
尚、入力音声の始終端検出(セグメンテーション)を
行い、その音声区間についての音声特徴ベクトルを抽出
してパターン照合に供する手法は、動的計画法に基づく
DPマッチング法によりパターン照合を行う場合や、HMM
(Hidden Marcov Model)や複合類似度法に基づくパタ
ーン照合を行う場合でも、従来、一般的に採用されてい
る。
ところが従来では音声エネルギーの変化等の簡単なパ
ラメータにより音声区間検出を行っている。この為、例
えば高騒音環境下での入力音声を認識処理するような場
合、ノイズ(周囲雑音)の悪影響を受けて、入力音声に
対する誤った始終端検出が行われることが多々ある。ま
た単語音声や文節音声の前後に「あ〜」「え〜」等の不
本意な発声が伴うような場合にも始終端検出が誤ってな
されることが多々ある。これ故、入力音声の始終端を如
何にして高精度に検出するかが、音声認識装置を実用化
する上での大きな課題となっている。
一方、高騒音環境下における音声認識をロバストに、
しかも高精度に行うべく、従来のような入力音声に対す
る始終端検出を行うことなく、その始終端点を非固定と
したままで連続的にパターン照合を行うワードスポッテ
ィング法が提唱されている。
このワードスポッティング法は、入力音声の始終端点
が或る区間のどこかに存在するものと仮定し、仮定され
た複数の始端点および終端点の組み合わせ(音声区間候
補)毎に音声パターン(音声特徴ベクトル)を切り出し
て認識辞書とのパターン照合を逐次的に行うものであ
る。これ故、従来のように予め音声区間を検出し、その
音声区間についての音声特徴ベクトルを抽出して認識辞
書とのパターン照合を行う手法に比較し、上記ワードス
ポッティング法を用いた音声認識処理を行うには、膨大
な回数のパターン照合が必要となり、その処理時間も非
常に長くなると云う問題がある。
しかもワードスポッティング法によるパターン照合を
リアルタイムに行う装置やLSIを開発する際,所望とす
る性能を満足させる為にはそのハードウエアが大規模化
し、製作コストが増大することが否めない。このような
理由によりワードスポッティング法を導入する場合に
は、従来では専ら入力音声を分析して求められる音声特
徴パラメータの次数を低くしたり、音声特徴パラメータ
に対する時間方向のサンプル点を少なくする等してパタ
ーン照合に用いる音声特徴ベクトルの次元数を小さくす
ることが行われている。
然し乍ら、このようにして音声特徴ベクトルの次元数
を小さくすると、入力音声パターン(単語音声特徴ベク
トル)の大局的特徴は表現できても、その微細な特徴構
造を表現することができなくなる。この結果、十分なる
精度でパターン照合を行うことができなくなり、誤った
認識結果が求められる要因となっている。
この点、前述した始終端検出(音声区間検出)により
音声特徴ベクトルを検出してパターン照合を行う手法に
よれば、パターン照合に必要な演算量が少ないので、そ
の音声特徴ベクトルの次元数を十分に高く設定して高精
度なパターン照合を行うことが可能である。しかし音声
区間の検出に誤まりが生じるとパターン照合に供される
音声特徴ベクトルが誤って求められると云う致命的な欠
陥がある。この為、音声区間検出に誤りが生じ易い高騒
音環境下での認識性能を高く保つことが非常に困難であ
ると云う問題があった。
(発明が解決しようとする課題) このように従来の音声認識装置では、高騒音環境下に
おける入力音声からその音声始終端(音声区間)を精度
良く検出して認識辞書とのパターン照合に供する音声特
徴ベクトルを抽出することが非常に困難であると云う問
題があった。またワードスポッティングにより入力音声
の始終端を非固定のまま連続パターン照合により、入力
音声を認識処理するにしても、そのパターン照合に複合
類似度法のパターン変形に強い強力な計算演算手法を導
入するには、そこでの計算量が非常に膨大化することか
ら、入力音声特徴ベクトルの次元数を低く抑えることが
必要となる。これ故、その認識率を高めることが非常に
困難であった。
本発明はこのような事情を考慮してなされたもので、
その目的とするところは、高騒音環境下における入力音
声や、音声入力の際の問題となる「あ〜」「え〜」等の
不用意な発声を伴う入力音声に対する認識性能(特に不
要語に対するリジェクト性能)を十分に高めることので
きる音声認識装置を提供することにある。
[発明の構成] (課題を解決するための手段) 本発明に係る音声認識装置は、入力音声を分析して第
1の音声特徴パラメータの時系列を求める手段と、ワー
ドスポッティング法によって、前記第1の音声特徴パラ
メータの時系列から始終端検出を行うことなく求められ
る第1の音声特徴ベクトルの時系列と認識対象カテゴリ
についての第1の認識辞書とを照合してその類似度値の
時系列を求め、該類似度値の時系列に基づいて前記入力
音声に対する認識結果の候補となる1または複数の認識
対象カテゴリとその類似度値とそれを与えた前記入力音
声における始終端との組を求める第1の音声認識手段
と、前記入力音声を分析して前記第1の音声特徴パラメ
ータの次元数より大きい次元数を持つ第2の音声特徴パ
ラメータの時系列を求める手段と、前記第1の音声認識
手段により求められた前記認識結果の候補に対する前記
始終端と同一の始終端によって、前記第2の音声特徴パ
ラメータの時系列から、前記第1の音声特徴ベクトルの
次元数より大きい次元数を持つ第2の音声特徴ベクトル
を抽出する手段と、この手段により抽出された第2の音
声特徴ベクトルと前記第1の音声認識手段により求めら
れた前記認識結果の候補となる前記認識対象カテゴリに
ついての第2の認識辞書とを照合してその類似度値を求
める第2の音声認識手段と、前記第1の音声認識手段に
より求められた前記認識結果の候補となる1または複数
の認識対象カテゴリについて前記第1の音声認識手段お
よび前記第2の音声認識手段によりそれぞれ求められた
類似度値に基づいて、前記入力音声に対する最終的な認
識結果を決定する手段とを具備したことを特徴とする。
即ち、低次元の音声特徴ベクトルの時系列を用いてワ
ードスポッティングによる連続音声パターン照合により
入力音声の大まかな特徴に従う認識処理結果を求めると
共に、この連続パターン照合結果から求められる入力音
声の始終端情報に従って、入力音声区間の高次元の特徴
ベクトルを用いて入力音声の詳細な特徴に従う認識処理
結果を求め、これらの認識結果を総合判定して入力音声
に対する高精度な認識結果を求めるようにしたことを特
徴としている。
なお、好ましくは、前記抽出する手段は、前記第1の
音声認識手段により求められた前記認識結果の候補に対
する前記始終端を基準として該始端終端を前後に移動さ
せることによって得られる複数の異なる始終端のそれぞ
れによって、前記第2の音声特徴パラメータの時系列か
ら前記第2の音声特徴ベクトルを複数抽出するようにし
てもよい。
また、好ましくは、第1および第2の音声認識手段に
おける音声特徴ベクトルと認識辞書との照合は、同一の
計算方式により上記音声特徴ベクトルと認識辞書との類
似度値を計算して行われるようにしてもよい。
また、好ましくは、第1および第2の認識辞書に対す
る学習機能をさらに備えるようにしてもよい。さらに、
好ましくは、第1および第2の認識辞書の学習処理は、
音声データに人工的なパターン変形を加えて学習用音声
データを作成し、第1の音声認識手段を用いてワードス
ポッティング法により求められる類似度値の時系列に基
づいて求められる学習用音声データの始終端に従って、
前記学習用音声データを分析して求められる第1および
第2の音声特徴パラメータの時系列から第1および第2
の音声特徴パラメータをそれぞれ抽出して行われるよう
にしてもよい。
(作 用) 本発明によれば、入力音声の全体的な大まかな特徴を
示す比較的次元数の少ない第1の音声特徴ベクトルの時
系列を用いることで、膨大なパターン照合回数を要する
ワードスポッティングによる連続パターン照合の演算量
の負荷を軽減して、音声区間検出を予め行うことなく入
力音声の大まかな特徴に基づく音声認識処理を行い、ま
た入力音声の詳細な特徴を表わす次元数の高い第2の単
語音声特徴ベクトルを音声区間(始終端)決定の後に抽
出して、詳細なパターン照合が行われる。
そしてこれらの各認識処理による認識結果を総合判定
してその最終的な認識結果を求めるので、認識処理に要
する演算量をさほど増加させずに、しかも音声の始終端
の検出能力に左右されることなく、例えば高騒音環境下
においても認識性能の高い音声認識処理を高速に実行す
ることが可能となる。つまり騒音や不明瞭な発声,不用
意な発声を伴う等の入力音声パターンの変形に対して、
高速に認識処理を実行してその認識結果を高い認識率で
求めることを可能とする、信頼性の高い実用的な音声認
識装置を実現することが可能となる。
(実施例) 以下、図面を参照して本発明の一実施例に係る音声認
識装置について説明する。
第1図は実施例装置の全体的な概略構成図で、1はマ
イクロホン等を介して入力される音声信号をディジタル
信号に変換して音声分析部2に与える音声入力部であ
る。
この音声入力部1は、例えば第2図に例示するように
入力音声信号に含まれる3.6KHz以上の高周波雑音成分を
除去するローパスフィルタ(LPF)1aと、このLPF1aを介
して取り込まれた入力音声(アナログ信号)を、例えば
標本化周波数;8KHz,量子化ビット数;12bitsでディジタ
ル信号に変換するA/D変換器1bと、このA/D変換器1bが出
力するディジタル信号処理に対して、例えば24mSecのハ
ミング窓を設定してエンファシス処理を施すプリエンフ
ァシス回路1cとにより構成される。
尚、上述した入力音声のディジタル化処理について
は、例えば12KHzの標本化周波数にて量子化ビット数が1
6bitsのディジタル信号を求めるようにしても良く、そ
の仕様は入力音声に対して要求される認識性能等に応じ
て定められる。
このような音声入力部1を介して入力された音声デー
タを分析する音声分析部2は、基本的にはFFT分析やLPC
分析,スペクトラム分析,フィルタ分析等の手法を用い
て、例えば8mSec毎にその特徴パラメータを求めるもの
である。このようにして音声分析部2にて求められる特
徴パラメータの時系列が後述する認識処理部3における
認識処理に用いられる。
しかして音声分析部2は、ここでは認識処理部3で用
いられる2種類の音声特徴パラメータを前記入力音声か
ら抽出する為の第1の分析部4と第2の分析部5とを備
えて構成されている。この第1の分析部4は、演算量が
膨大な始終端非固定による連続パターン照合処理に用い
る為の次元数の低い(周波数分解能の悪い)第1の特徴
パラメータを抽出する為のものである。また第2の分析
部5は、音声区間の詳細な特徴を利用したパターン照合
処理に用いる為の次元数の高い(周波数分解能の高い)
第2の音声特徴パラメータを抽出する為のものである。
これらの第1および第2の分析部4,5は、例えばフィ
ルタ分析によりその特徴パラメータを求める場合には、
第2図に例示するように8チャネルまたは16チャネルの
バンドパスフィルタ(BPF)4a,5aの出力に対して、スク
エア処理4b,5b,スムージング処理4c,5c,対数圧縮化処理
4d,5dを施すことにより、8次元の第1の音声特徴パラ
メータと16次元の第2の音声特徴パラメータを求める如
く構成される。
尚、FFT分析(高速フーリエ変換による周波数分析)
により上記第1および第2の音声特徴パラメータをそれ
ぞれ求めるような場合には、第3図にその処理概念を模
式的に示すように、例えばDFT分析処理により12KHzのサ
ンプリング周期で256点の離散的フーリエ変換を施し、1
28点の分解能を有する周波数スペクトル(DFTスペクト
ル)Xkを求める。そしてこの周波数スペクトルXkのパワ
ー|Xk|2を周波数方向に平滑化し、周波数方向を8個ま
たは16個に分割した8チャネル(次元)または16チャネ
ル(次元)のフィルタバンク相当出力Zi(i=1,2,〜8
またはi=1,2,〜16)をそれぞれ求める。
具体的には、8チャネルのフィルタバンク相当出力Zi
(i=1,2,〜8)を求める場合には、 として周波数方向に平滑化処理を施す。これらのフィル
タバンク相当出力Zi(i=1,2,〜8)を対数化すること
により、 Gi=10 logZi (i=1,2,〜8) として8次元の第1の音声特徴パラメータが求められ
る。
同様にして前述した周波数分解能の高い16チャネルの
フィルタバング相当出力Zi(i=1,2,〜16)について
も、前述した周波数スペクトルのパワー|Xk|2を周波数
方向に平滑化し、これを対数化することにより求められ
る。
尚、このようにして同じ周波数スペクトル(DFTスペ
クトル)から次元数を異にする第1および第2の音声特
徴パラメータを求めることは、その演算量の点で非常に
効率的であるが、全く別個のFFT分析処理にて第1およ
び第2の音声特徴パラメータをそれぞれ求めるようにし
ても良いことは云うまでもない。更には、LPC分析やケ
プストラム分析により第1および第2の音声特徴パラメ
ータを求める場合にも同様に実施することができる。
即ち、この音声分析部2では、後述する認識処理部3
での、演算量が膨大な始終端非固定による連続パターン
照合処理に用いる為の第1の特徴パラメータとして次元
数の低い(周波数分解能の悪い)特徴パラメータを抽出
し、また認識処理部3での、音声区間の詳細な特徴を利
用したパターン照合処理に用いる為の第2の音声特徴パ
ラメータとして次元数の高い(周波数分解能の高い)音
声特徴パラメータを抽出するものとなっている。
尚、このようにして第1および第2の音声特徴パラメ
ータをそれぞれ求める為に必要な演算量は、後述する認
識処理部3でのパターン照合に必要な演算量に比較して
遥かに少ないものである。従って上述した如く2種類の
音声特徴パラメータを求めることは、装置全体にとって
さほど負担となることはない。
さて上述した如く求められた第1および第2の音声特
徴パラメータを用いて前記入力音声を認識処理する認識
処理部3は、第1の特徴パラメータを用いて始終端非固
定のまま連続的にて認識辞書6との間でパターン照合を
行う第1の音声認識手段と、第2の音声特徴パラメータ
を用いてパターン照合する際の入力音声の始終端を検出
し、検出された始終端間の音声特徴ベクトルを求めて前
記認識辞書6との間でパターン照合を行う第2の音声認
識手段とを備えて構成される。
具体的には、第1の音声認識手段は、第1の特徴パラ
メータの時系列を入力し、入力音声に対する始終端非固
定のまま、例えば周波数方向に8次元,時間軸方向に12
次元の音声特徴ベクトルの時系列を抽出して時間的に連
続して、前記認識辞書6に登録されている認識対象カテ
ゴリについての第1の認識辞書との間で連続的にパター
ン照合を行う連続パターン照合部7により構成されてい
る。
この連続パターン照合部7におけるワードスポッティ
ングによる連続パターン照合は、基本的には第4図に例
示するように入力音声の特徴パラメータの系列から、そ
の特徴パラメータを求めた各サンプル・タイミング(分
析フレーム)を仮に設定される終端点とし、その終端点
を基準として或る音声区間条件を満たす複数の始端点を
仮設定する。そしてこれらの始終端点間で示される仮の
音声区間の特徴パラメータの系列を時間軸方向にリサン
プル処理し、音声区間を異にする所定の次元数の特徴ベ
クトルを前記終端点を基準としてそれぞれ求める。この
ようにして終端点を基準として求められる所定の次元数
の複数の特徴ベクトルを、前記終端点を時間軸方向にシ
フトしながら順次連続的に抽出し、これらの各特徴ベク
トルと認識辞書6との類似度をそれぞれ求めていく。
尚、この特徴ベクトルと認識辞書6との類似度を求め
る演算処理は、例えば複合類似度演算の手法を用いる等
して行われる。
しかして各特徴ベクトルについて求められた類似度値
を、例えば第5図に示すように相互に比較し、最大類似
度を得た認識対象カテゴリと、その音声区間の情報(最
大類似度値を得た特徴ベクトルの始終端の情報)を前記
入力音声に対する認識結果として求めるものである。
このようなワードスポッティングによる音声認識処理
によれば、始終端の検出誤りに起因する前述した問題が
なくなるので、その分、認識性能を高めることが可能と
なる。しかし時間的に連続して入力音声の特徴ベクトル
を時系列に抽出し、これらの特徴ベクトルを時系列と認
識辞書との類似度を逐次計算することが必要となる。こ
れ故、その演算処理量が非常に膨大化することから、上
記特徴ベクトルの次元数をある程度低く抑えて、その計
算処理負担を軽減することが必要となる等の配慮が必要
となる。そしてこのように特徴ベクトルの次元数を低く
すると、この特徴ベクトルによって示される入力音声の
特徴はその全体に亘る大局的なものとなることが否めな
い。従って、入力音声の詳細な特徴に従って、その入力
音声を高精度に認識する上で問題がある。
このような不具合を効果的に補うべく、認識処理部3
では前述した第2の音声認識手段にて前記第2の音声特
徴パラメータから入力音声の詳細な特徴を表現し得る高
次元の特徴ベクトルを抽出し、この特徴ベクトルを用い
て認識辞書6との間でパターン照合を行うものとなって
いる。
即ち、始終端検出部8は、ここでは前記連続パターン
照合部7にて求められた入力音声の始終端情報に従って
入力音声に対する始終端を検出している。つまり連続パ
ターン照合部7におけるワードスポッティングによる連
続パターン照合は、入力音声の始終端非固定のまま時間
的に連続してパターン照合を行い、入力音声の大局部な
特徴から認識候補を求めている。このようにして求めら
れる認識候補に着目すれば、その認識候補を得た第1の
特徴ベクトルの始終端は、入力音声の大局的な特徴から
求められる音声区間を示していると云える。始終端検出
部8はこのような観点に立脚して、前記連続パターン照
合部7によるパターン照合結果に基づいて入力音声の始
終端情報を求めている。
尚、この始終端検出については、入力音声のエネルギ
ー変化を調べて、或いは連続DPマッチング処理等の手法
を用いることで、上述したワードスポッティングによる
連続パターン照合とは独立に行うことも可能である。
しかして単語特徴ベクトル抽出部9は上記始終端検出
部8にて検出された入力音声の始終端情報に従い、前記
音声分析部2の第2の分析部5にて求められた周波数方
向に次元数の高い第2の特徴パラメータから、当該始終
端情報により示される音声区間の特徴パラメータをリサ
ンプル抽出し、例えば第3図に示すように周波数方向に
16次元,時間軸方向に16次元の音声特徴ベクトルを求め
る。このようにして求められる高次元数の第2の音声特
徴ベクトルがパターン照合部10に与えられて認識辞書6
に登録されている認識対象カテゴリについての第2の認
識辞書との間でのパターン照合に供される。
このパターン照合部10における第2の音声特徴ベクト
ルに対するパターン照合は、例えば前述した連続パター
ン照合部7におけるパターン照合と同様に複合類似度法
を用いて行われるが、HMM照合,DP照合等の手法を用いて
行うことも可能である。
つまりこのパターン照合部10では、始終端検出結果に
従って前記第2の音声特徴パラメータの時系列から抽出
される音声区間についての、入力音声の詳細な特徴を表
している高次元の第2の音声特徴ベクトルを用いて認識
辞書6とのパターン照合を行い、その類似度値から前記
入力音声に対する認識候補を求めるものとなっている。
この認識候補は、類似度値の高い幾つかの認識対象カテ
ゴリ名を求めることによってなされる。
このようにして認識処理部3では、低次元の特徴ベク
トルの時系列を用い、第1の音声認識手段により入力単
語音声αについての始端点tsαと終端点teα,およ
びその類似度Sα1を求めている。そしてこの第1の音
声認識手段で求められた始端点tsαと終端点teα
に従って高次元の第2の特徴ベクトルを抽出し、第2の
音声認識手段により前記入力単語音声αについての類似
度Sα2を求めている。つまり始終端非固定の連続パタ
ーン照合による第1の認識処理を核として、第2の認識
処理により始終端検出後の特徴ベクトルを用いた詳細な
パターン照合を行うものとなっている。
しかしてこのような認識処理部3で求められた認識結
果を総合判定して、前記入力音声に対する最終的な認識
結果を求める認識結果処理部11は次のように構成されて
いる。即ち、この認識結果処理部11は第1図のブロック
内に示すように、前記認識処理部3の連続パターン照合
部7(第1の音声認識手段)にて求められた認識候補に
対する処理を行う第1の結果処理部12と、前記認識処理
部3のパターン照合部10(第2の音声認識手段)にて求
められた認識候補に対する処理を行う第2の結果処理部
13、そしてこれらの第1および第2の結果処理部12,13
にてそれぞれ求められた認識候補に対する処理結果を総
合判定して最終的な認識結果を求める統合処理部14を備
えて構成される。
このような認識結果処理部11(統合処理部14)にて求
められた最終的な認識結果が、認識結果出力部15を介し
て出力され、所定の情報処理装置に与えられたり、音声
入力者に提示出力される。
次に認識結果処理部11における前述した第1および第
2の音声認識手段による認識結果(認識候補)に対する
総合判定処理について説明する。
今、前記認識処理部3の連続パターン照合部7(第1
の音声認識手段)にて高い類似度値を得た上位3位の認
識対象カテゴリC1,C2,C3が求められると、第1の結果処
理部12にはその認識対象カテゴリC1,C2,C3のカテゴリ名
と共に、これを得た類似度値SC1,SC2,SC3がそれぞれ与
えられる。この際、これらの類似度値SC1,SC2,SC3を得
た第1の特徴ベクトルの始終端情報が第2の音声認識手
段に与えられ、第2の特徴ベクトル抽出処理に利用され
る。
しかして第2の音声認識手段では上述した如く求めら
れた認識対象カテゴリC1,C2,C3についての第2の特徴ベ
クトルを用いた詳細な特徴に基づくパターン照合によ
り、その類似度値をS′C1,S′C2,S′C3としてそれぞれ
求めている。
認識結果処理部11では、最も単純に上述した認識結果
に対する統合処理を行う場合には、上記第1および第2
の音声認識手段によりそれぞれ求められた認識対象カテ
ゴリC1,C2,C3についての第1の類似度値SC1,SC2,SC3
第2の類似度値S′C1,S′C2,S′C3とを単純加算し、 STCi=Sci+S′Ci) (i=1,2,3) として類似度値の統合を行っている。そしてこのように
して統合された前記各認識対象カテゴリC1,C2,C3につい
ての類似度値STC1,STC2,STC3を相互に比較判定し、最も
類似度値の高い認識対象カテゴリを前記入力音声に対す
る最終的な認識結果として求めている。
尚、第1および第2の音声認識手段によりそれぞれ求
められた或る認識対象カテゴリについての類似度値を単
純に加算することに変えて、例えば STCi=wSCi(1−w)S′Ci (i=1,2,3) のように所定の重み係数wを用いて加重平均的に統合さ
れた類似度値STCiを求めるようにすることも可能であ
る。この場合には、例えば[w=0.2]程度に設定する
ことにより、入力音声の詳細な特徴を表現した第2の特
徴ベクトルを用いたパターン照合結果(類似度値)に対
する重み付けを高める等の配慮を施すことが好ましい。
更には第2の特徴ベクトルに基づくパターン照合によ
り求められた認識対象カテゴリC1,C2,C3についての第2
の類似度値S′C1,S′C2,S′C3間の差を求め、第1位と
第2位との差が大きい場合には、第1の類似度値SC1,S
C2,SC3に拘りなく、第2の類似度値S′C1,S′C2,S′C3
だけに基づいて最終的な認識結果を決定するようにして
も良い。この場合には上記類似度値の差が小さい場合に
だけ、第1の類似度値SC1,SC2,SC3を参照しながらその
最終的な認識結果の判定処理を行うことになる。
この他にも、例えば類似度値を確率的な尺度に変換し
て認識結果を総合判定することも可能であり、第1およ
び第2の類似度値の分布を統計的に調べて最終的な認識
結果を判定するようにすることも可能である。
このような第1および第2の音声認識手段によりそれ
ぞれ求められる認識結果の、上述した認識結果処理部11
での統合処理により、前記入力音声に対する最終的な認
識結果が求められる。
第6図はこのように構成された実施例装置における全
体的な処理手続きの流れを示している。この図に示され
るように実施例装置では、音声分析部2にて求められた
周波数方向に次元数の低い第1の特徴パラメータの時系
列から次元数の低い特徴ベクトルを求めて始終端非固定
による連続パターン照合処理を実行し(ステップA)、
この連続パターン照合により求められる第1の類似度の
時系列から類似度値の高い単語候補(認識対象カテゴ
リ)とその始終端候補を求める(ステップB)。
しかる後、上述した連続パターン照合による第1の音
声認識処理にて求められる始終端候補に従って音声区間
を切り出し、その音声区間についての次元数の高い第2
の特徴ベクトルを求め(ステップC)、この第2の特徴
ベクトルについてパターン照合処理を実行して第2の類
似度値を求める(ステップD)。
その後、これらの第1および第2の類似度値を総合的
に判断することで前記入力音声に対する最終的な認識結
果を求めるものとなっている(ステップE)。
この処理手続きに示されるように、実施例装置では入
力音声を分析して求められる低次元数の第1の特徴パラ
メータから始終端非固定で時間的に連続して求められる
低次元数の第1の特徴ベクトルを用いて連続パターン照
合を実行することで、入力音声の大略的な特徴に基づく
認識結果を求め、その認識結果を得た第1の特徴ベクト
ルによって示される始終端情報に従って切り出される音
声区間についての、前記入力音声を分析して求められる
高次元数の第2の特徴パラメータから抽出される高次元
数の第2の特徴ベクトルを用いたパターン照合により、
入力音声の詳細な特徴に基づく認識結果を求めるものと
なっている。
そしてこれらの認識結果を総合判定して前記入力音声
に対する最終的な認識結果を求めるので、仮に入力音声
が高騒音環境下で求められたものであって、雑音に埋も
れているような場合であっても、連続パターン照合によ
り入力音声の大略的な特徴から雑音に左右されることの
ない第1の認識結果を求め、その上で、この第1の認識
結果に伴って検出される音声区間の情報に従って入力音
声の詳細な特徴に基づく認識処理が行われるので、その
認識性能を飛躍的に高めることが可能となる。
つまり第7図(a)に示すような入力音声パターンが
雑音に埋もれて第7図(b)に示すような音声パターン
として与えられるような場合であっても、その雑音成分
の影響を受けることなしに、その入力音声を性能良く認
識することが可能となる。
尚、上述したようにして入力音声を認識処理するに際
しては、例えば第8図に示すように第1の音声認識手段
により求められた認識対象カテゴリについての類似度値
が所定の閾値θ1以上で、且つ最大類似度値Smaxとの類
似度値差がΔθ1以下のものだけを認識候補として求
め、上記条件を満たす認識候補が得られなかった場合に
は、これを認識リジェクトする。
そして第1の音声認識手段にて上記条件を満たす認識
候補が得られた場合にのみ、その認識候補について第2
の音声認識手段にて第2の音声特徴ベクトルに従う詳細
なパターン照合を行い、この第2の音声認識手段により
求められた類似度値が所定の閾値θ2以上で、且つその
最大類似度値Smaxとの類似度値差がΔθ2以下のものだ
けを認識候補として求めるようにしても良い。
このようにすれば不要語に対するリジェクト性能の向
上が図られるので、音声認識の実用化に大きく貢献でき
る。
また第1の音声認識手段(連続パターン照合)により
求められる始終端情報に従って第2の音声特徴パラメー
タからその特徴ベクトルを抽出するに際しては、必ずし
もその始終端情報が入力音声の始終端を正確に示してい
るとは限らない。従って、例えば上記第1の音声認識手
段(連続パターン照合)により求められた始終端の前後
数点を始終端候補としてそれぞれ求め、これらの各始終
端候補により示される音声区間の第2の音声特徴ベクト
ルを求めて詳細なパターン照合を行うようにすれば良
い。また或いはある認識対象カテゴリの類似度を大きく
する上位複数の始終端候補を求め、これらの各始終端候
補により示される音声区間の第2の音声特徴ベクトルを
求めて詳細なパターン照合を行うようにしても良い。
また実施例では、第1および第2の音声認識処理をそ
れぞれ1種類の特徴ベクトルを用いて行うものとした
が、周波数方向および時間方向に次元数の異なる複数種
類の特徴ベクトルをそれぞれ用いて上述した第1および
第2の音声認識処理をそれぞれ実行することも可能であ
る。このようにすれば計算処理負担が増えるものの、そ
の認識性能を更に高めることが可能となる。その他、パ
ターン照合の手法や、パターン照合に用いる音声特徴ベ
クトルの次元数等については、その要旨を逸脱しない範
囲で種々変形して実施することができる。
次に上述した音声認識処理に用いられる認識辞書6の
学習について説明する。
第9図は認識辞書6に対する辞書学習部の概略構成を
示す図である。この辞書学習部は、雑音のないクリーン
な環境下で収集された種々の認識対象カテゴリについて
の音声パターンを学習用音声データとして蓄積した音声
データファイル21と、種々の雑音データを収集した学習
用雑音データファイル22を備えている。この学習用雑音
データファイル22に収集される雑音データは、例えば街
頭や駅構内等の、所謂雑音環境下で収集された雑多な音
情報を含むデータからなる。
音声データ合成部23は、学習対象とする認識対象カテ
ゴリの音声データを前記学習用音声データファイル21か
ら読み出し、これに前記学習用雑音データファイル22か
ら求められる雑音データを重畳させて上記音声データに
人工的なパターン変形を加えるものである。このパター
ン変形の度合いは、例えば音声データに混入する雑音デ
ータのレベルを可変する等して調節される。このように
して雑音データが加えられた音声データが前記音声分析
部2に与えられて第1および第2の音声特徴パラメータ
が求められる。
前述した認識処理部3における連続パターン照合部7
は、このようにして入力される学習用の音声データにつ
いて、上記第1の特徴パラメータから第1の特徴ベクト
ルの時系列を求め、同様にして連続パターンマッチング
処理を実行して第1の類似度の時系列を求める。
尚、この場合には学習対象とするカテゴリが予め判っ
ていることから、その認識対象カテゴリについての認識
辞書パターンとの間でだけパターン照合を行っても良
い。或いは類似カテゴリとの識別性を高めるような認識
辞書の学習効果も期待する場合には、これらの類似カテ
ゴリについての辞書パターンとの間でもパターン照合を
行うことが望ましい。また類似カテゴリ(誤認識される
虞れのあるカテゴリ)が不明な場合には、認識モードの
場合と同様に、全ての認識対象カテゴリの辞書パターン
との間でパターン照合するようにすることも勿論可能で
ある。
しかして学習用特徴ベクトル抽出部24は、認識処理部
3(連続パターン照合部7)にて前記学習用音声データ
について求められた類似度の時系列に基づいて、例えば
学習対象カテゴリの辞書に対する最大類似度値maxSij
基準とし、この最大類似度maxSijとの差が所定の閾値θ
以下の類似度Sijとなっている第1の特徴ベクトルにつ
いての始端点tsおよび終端点teをそれぞれ求める。そし
てその第1の特徴ベクトルXijと始端点ts,終端点te,お
よびこの第1の特徴ベクトルXijを抽出する根拠となっ
た類似度値Sijを、学習用音声特徴ベクトルの抽出候補
として求める。
しかる後、学習用音声特徴ベクトル抽出部24は、例え
ば上記学習対象とするカテゴリの音声データについての
始終端に関する情報を用いて、上記抽出候補として与え
られた特徴ベクトルについての始終端に関して検定す
る。そしてこの検定に合格した始終端候補に従って前記
音声分析部2で求められた第1および第2の音声特徴パ
ラメータからその音声区間についての第1および第2の
音声特徴ベクトルを第11図に示すようにそれぞれ求め
る。認識辞書作成部25は、このようにして求められる第
1および第2の音声特徴ベクトルに従って認識辞書を作
成し、前記音声認識辞書6に格納されている認識辞書パ
ターンを学習更新する。
この認識辞書の学習について説明すると、例えば複合
類似度法による場合には、抽出された学習用音声特徴ベ
クトルXijを用いて辞書パターンの共分散行列を更新
し、しかる後、この共分散行列をKL展開してその固定値
λと固有ベクトルφを求め、この固有値λと固有ベクト
ルφを認識辞書として更新登録することにより行われ
る。
第10図はこのような認識辞書6の学習処理手続きの流
れを示す図である。
この学習処理は、先ず音声データに対する雑音データ
の割合(S/N)を設定し(ステップa)、設定されたS/N
に従って学習対象とするカテゴリの音声データに所定の
雑音データを加えて人工的なパターン変形を与え(ステ
ップb)、これを学習用の音声データとすることから行
われる。このようにして作成される学習データを分析し
て第1および第2の音声特徴パラメータをそれぞれ求
め、次元数の低い第1の音声特徴パラメータから求めら
れる第1の音声特徴ベクトルの時系列について、認識辞
書に予め登録されている辞書パターンを参照してワード
スポッティング法に基づく連続パターン照合処理を実行
し、その類似度の時系列を求める(ステップc)。
しかる後、この類似度の時系列に従い、例えば学習対
象カテゴリの辞書との最大類似度値Smaxとの差が所定の
閾値θ以内の類似度値をとる特徴ベクトルの始端点と終
端点とをそれぞれ入力音声データに対する始端候補およ
び終端候補として求める。この処理においては上述した
閾値θの設定にもよるが、必ずしも1つの特徴ベクトル
に対する始端候補および終端候補だけが抽出されると云
う保証はなく、一般的には複数組の始端候補および終端
候補が求められる。
ちなみに本発明者等が先に提唱した、例えば特願平1
−57978号における特徴ベクトルの抽出処理は、上述し
た連続パターン照合によって求められる類似度の時系列
中の、学習対象カテゴリについての最大類似度値Smaxに
注目して学習用の音声特徴ベクトルの抽出を行ってい
る。
これに対してここでは、例えば上述した類似度の時系
列から求められる複数の特徴ベクトルの始端点と終端点
をそれぞれ始端候補および終端候補とし、学習対象とす
る音声データについて予め求められている始端点と終端
点の情報に従って上記始端候補および終端候補を絞り込
み処理し、最も信頼性の高い始端候補および終端候補を
求める。
即ち、連続パターン照合によって求められた類似度の
時系列に基づいて求められた数組の始端候補および終端
候補はそれぞれの音声区間を表していることから、ここ
では先ずその音声区間が音声データの標準的な音声区間
の時間幅に適合している否かの検定を行い、始端候補お
よび終端候補の絞り込みを行う。具体的には、始端候補
および終端候補により示される音声区間が音声データの
最小継続時間以上で、且つ最大継続時間以内であるかの
検定を行う。
また求められた音声区間に対する音声データの最大・
最小継続時間による検定については、類似度の時系列を
求める際の始終端非固定の連続パターン照合時、つまり
ワードスポッティング時に行うようにしても良い。つま
りワードスポッティングを行う際、その音声区間が最大
継続時間以下で、最小継続時間以上となるような始終端
についてのみその類似度演算を行うようにしても良い。
このようにすれば上述した学習用音声特徴ベクトルの抽
出処理を行う際での音声区間幅のずれに対する検定を省
略することが可能となる。
しかしてこのような音声区間に対する検定を行った
後、次に上記始端候補および終端候補が標準的な始端点
および終端点に対して所定のずれ幅以内に収まっている
かの検定を行い、その始端候補および終端候補の絞り込
みを行う。
このような検定処理により、前述した如く求められた
始終端候補が上述した継続時間幅の条件に適合するか否
かを調べ、この条件に該当しない始終端候補を特徴ベク
トルの抽出対象から除外する。また始終端のずれに対す
る検定により、その始終端が許容ずれ範囲内に収まって
いるか否かを調べ、これによってその条件に適合しない
始終端候補を特徴ベクトルの抽出対象から除外する。
このような始終端に関する検定により始終端候補を絞
り込むことで、真に信頼性の高い候補だけが残されるこ
とになる。
しかる後、その信頼性の高い、最大類似度を得る区間
の始終端の情報に従い、前述した第1および第2の音声
特徴パラメータからその音声区間についての第1および
第2の音声特徴ベクトルを第11図に示すようにそれぞれ
抽出する(ステップd)。この結果、認識辞書6を学習
する為の音声特徴ベクトルが前述した雑音の影響を受け
ることなしに精度良く、しかも高い信頼性をもって抽出
される。しかる後、この抽出された第1および第2の音
声特徴ベクトルを用いて前記認識辞書6の学習処理が行
われ(ステップe)、認識辞書6の性能が効果的に高め
られる。
このような認識辞書6の学習処理は、学習対象として
いる全ての認識対象カテゴリについての学習処理が行わ
れるまで、繰り返し実行される(ステップf)。
かくしてこのような認識辞書の学習機能を備えた音声
認識装置によれば、人工的に雑音が加えられた学習用音
声データを用いて第1および第2の音声認識手段による
パターン照合にそれぞれ供される認識辞書の性能を非常
に効果的に高めていくことが可能となる。しかも始終端
非固定の連続パターン照合による認識結果に基づいて求
められる始終端情報に従ってその音声区間の特徴ベクト
ルを正確に抽出して認識辞書6の学習を行い、その性能
を高めていくことができる。
この結果、前述した音声認識処理の手法と相俟って、
その認識性能を飛躍的に高めることが可能となる。
尚、本発明は上述した実施例に限定されるものではな
い。例えば実施例では入力音声を単語を単位として認識
処理する例について示したが、音韻や音節を処理単位と
して認識処理することも可能であり、他のセグメント単
位や記号処理を基本として入力音声を認識処理すること
も可能である。また認識対象も上述した単語のみなら
ず、文節や連続単語,文等であっても良い。更には認識
処理に用いる音声特徴ベクトルの次元数やパターン照合
の手法についても特に限定されることはない。本発明の
ポイントは始終端非固定の連続パターン照合と始終端決
定後のパターン照合によるハイブリッドシステムであ
り、その要旨を逸脱しない範囲で種々変形して実施する
ことができる。
[発明の効果] 以上説明したように本発明によれば、連続パターン照
合による入力音声の大略的な特徴に基づく認識結果と、
始終端検出後の高次元な特徴ベクトルを用いたパターン
照合による入力音声の詳細な特徴に基づく認識結果とを
総合判定してその入力音声に対する認識結果を求めるの
で、その認識性能を飛躍的に高めることができる。しか
も演算量の多い連続パターン照合による認識処理につい
ては次元数の低い音声特徴ベクトルを用い、始終端検出
後のパターン照合については、その演算量が少ないこと
から次元数の高い特徴ベクトルを用いて認識処理を行う
ので、その演算量をさほど増加させずに認識性能を高め
ることができる等の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
図は本発明の一実施例に係る音声認識装置について示す
もので、第1図は実施例装置の全体的な概略構成図、第
2図は実施例装置における音声入力部と音声分析部の構
成例を示す図、第3図は音声分析部における第1および
第2の音声特徴パラメータの抽出概念を示す図、第4図
および第5図はワードスポッティングによる連続パター
ン照合処理による音声認識処理の基本概念を示す図、第
6図は実施例装置での音声認識処理手続きの流れを示す
図である。 また第7図は入力音声パターンの例を示す図、第8図は
音声認識処理手続きの変形例を示す図、第9図は認識辞
書の学習機能を示す図、第10図は認識辞書の学習処理手
続きの流れを示す図、第11図は入力音声パターンから抽
出される学習用音声特徴ベクトルの概念を示す図であ
る。 1……音声入力部、2……音声分析部、3……認識処理
部、4……第1の分析部(第1の音声特徴パラメータの
抽出手段)、5……第2の分析部(第2の音声特徴パラ
メータの抽出手段)、6……認識辞書、7……連続パタ
ーン照合部(始終端非固定の第1の音声特徴ベクト
ル)、8……始終端検出部、9……単語特徴ベクトル抽
出部(第2の音声特徴ベクトル)、10……パターン照合
部、11……認識結果処理部、12……第1の結果処理部、
13……第2の結果処理部、14……統合処理部、15……認
識結果出力部、21……音声データファイル、22……雑音
データファイル、23……音声データ合成部、24……学習
用特徴ベクトル抽出部、25……認識辞書作成部。
フロントページの続き (56)参考文献 特開 平3−71200(JP,A) 特開 昭62−100799(JP,A) 特開 昭62−237500(JP,A) 特開 昭57−100799(JP,A) 特開 昭62−275300(JP,A) 特開 昭58−52696(JP,A) 特開 昭59−15993(JP,A) 特公 平6−34192(JP,B2) 特公 平7−92678(JP,B2) 電子情報通信学会技術研究報告 Vo l.89,No.90,SP89−19「学習型 ワードスポッティング法による騒音環境 下の不特定話者単語音声認識」p.51− 58(1989/6/22) 日本音響学会講演論文集 平成元年10 月 2−1−12「騒音学習型ワードスポ ッティング法による学習時の拘束条件に 関する検討」p.75−76 日本音響学会講演論文集 平成元年3 月 3−7−14「不特定話者単語認識に おける雑音の影響に関する考察」p. 115−116 斎藤・中田「音声情報処理の基礎」 (昭56−11−30)オーム社p.185−187 (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 513 G10L 3/00 531 G10L 5/06 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を分析して第1の音声特徴パラメ
    ータの時系列を求める手段と、 ワードスポッティング法によって、前記第1の音声特徴
    パラメータの時系列から始終端検出を行うことなく求め
    られる第1の音声特徴ベクトルの時系列と認識対象カテ
    ゴリについての第1の認識辞書とを照合してその類似度
    値の時系列を求め、該類似度値の時系列に基づいて前記
    入力音声に対する認識結果の候補となる1または複数の
    認識対象カテゴリとその類似度値とそれを与えた前記入
    力音声における始終端との組を求める第1の音声認識手
    段と、 前記入力音声を分析して前記第1の音声特徴パラメータ
    の次元数より大きい次元数を持つ第2の音声特徴パラメ
    ータの時系列を求める手段と、 前記第1の音声認識手段により求められた前記認識結果
    の候補に対する前記始終端と同一の始終端によって、前
    記第2の音声特徴パラメータの時系列から、前記第1の
    音声特徴ベクトルの次元数より大きい次元数を持つ第2
    の音声特徴ベクトルを抽出する手段と、 この手段により抽出された第2の音声特徴ベクトルと前
    記第1の音声認識手段により求められた前記認識結果の
    候補となる前記認識対象カテゴリについての第2の認識
    辞書とを照合してその類似度値を求める第2の音声認識
    手段と、 前記第1の音声認識手段により求められた前記認識結果
    の候補となる1または複数の認識対象カテゴリについて
    前記第1の音声認識手段および前記第2の音声認識手段
    によりそれぞれ求められた類似度値に基づいて、前記入
    力音声に対する最終的な認識結果を決定する手段とを具
    備したことを特徴とする音声認識装置。
  2. 【請求項2】前記抽出する手段は、前記第1の音声認識
    手段により求められた前記認識結果の候補に対する前記
    始終端を基準として該始端終端を前後に移動させること
    によって得られる複数の異なる始終端のそれぞれによっ
    て、前記第2の音声特徴パラメータの時系列から前記第
    2の音声特徴ベクトルを複数抽出することを特徴とする
    請求項(1)に記載の音声認識装置。
  3. 【請求項3】第1および第2の音声認識手段における音
    声特徴ベクトルと認識辞書との照合は、同一の計算方式
    により上記音声特徴ベクトルと認識辞書との類似度値を
    計算して行われることを特徴とする請求項(1)に記載
    の音声認識装置。
  4. 【請求項4】請求項(1)に記載の音声認識装置におい
    て、第1および第2の認識辞書に対する学習機能を備え
    たことを特徴とする音声認識装置。
  5. 【請求項5】第1および第2の認識辞書の学習処理は、
    音声データに人工的なパターン変形を加えて学習用音声
    データを作成し、第1の音声認識手段を用いてワードス
    ポッティング法により求められる類似度値の時系列に基
    づいて求められる学習用音声データの始終端に従って、
    前記学習用音声データを分析して求められる第1および
    第2の音声特徴パラメータの時系列から第1および第2
    の音声特徴パラメータをそれぞれ抽出して行われること
    を特徴とする請求項(4)に記載の音声認識装置。
JP1306477A 1989-11-28 1989-11-28 音声認識装置 Expired - Fee Related JP3004023B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1306477A JP3004023B2 (ja) 1989-11-28 1989-11-28 音声認識装置
DE69026474T DE69026474T2 (de) 1989-11-28 1990-11-26 System zur Spracherkennung
EP90312821A EP0430615B1 (en) 1989-11-28 1990-11-26 Speech recognition system
US08/794,770 US5794194A (en) 1989-11-28 1997-02-03 Word spotting in a variable noise level environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1306477A JP3004023B2 (ja) 1989-11-28 1989-11-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03167600A JPH03167600A (ja) 1991-07-19
JP3004023B2 true JP3004023B2 (ja) 2000-01-31

Family

ID=17957486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1306477A Expired - Fee Related JP3004023B2 (ja) 1989-11-28 1989-11-28 音声認識装置

Country Status (3)

Country Link
EP (1) EP0430615B1 (ja)
JP (1) JP3004023B2 (ja)
DE (1) DE69026474T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240002B2 (en) 2000-11-07 2007-07-03 Sony Corporation Speech recognition apparatus

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
DE4240978A1 (de) * 1992-12-05 1994-06-09 Telefonbau & Normalzeit Gmbh Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation
DE19754957A1 (de) * 1997-12-11 1999-06-17 Daimler Chrysler Ag Verfahren zur Spracherkennung
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
ATE293316T1 (de) * 2000-07-27 2005-04-15 Activated Content Corp Inc Stegotextkodierer und -dekodierer
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US8494903B2 (en) 2007-03-16 2013-07-23 Activated Content Corporation Universal advertising model utilizing digital linkage technology “U AD”
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN112908301B (zh) * 2021-01-27 2024-06-11 科大讯飞(上海)科技有限公司 一种语音识别方法、装置、存储介质及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
斎藤・中田「音声情報処理の基礎」(昭56−11−30)オーム社p.185−187
日本音響学会講演論文集 平成元年10月 2−1−12「騒音学習型ワードスポッティング法による学習時の拘束条件に関する検討」p.75−76
日本音響学会講演論文集 平成元年3月 3−7−14「不特定話者単語認識における雑音の影響に関する考察」p.115−116
電子情報通信学会技術研究報告 Vol.89,No.90,SP89−19「学習型ワードスポッティング法による騒音環境下の不特定話者単語音声認識」p.51−58(1989/6/22)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240002B2 (en) 2000-11-07 2007-07-03 Sony Corporation Speech recognition apparatus

Also Published As

Publication number Publication date
EP0430615B1 (en) 1996-04-10
JPH03167600A (ja) 1991-07-19
DE69026474T2 (de) 1996-09-19
EP0430615A2 (en) 1991-06-05
DE69026474D1 (de) 1996-05-15
EP0430615A3 (en) 1992-04-08

Similar Documents

Publication Publication Date Title
US5794194A (en) Word spotting in a variable noise level environment
US4783804A (en) Hidden Markov model speech recognition arrangement
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
US20020049593A1 (en) Speech processing apparatus and method
Yapanel et al. A new perspective on feature extraction for robust in-vehicle speech recognition.
JP3004023B2 (ja) 音声認識装置
US20050049872A1 (en) Class detection scheme and time mediated averaging of class dependent models
US5764853A (en) Voice recognition device and method using a (GGM) Guaranteed Global minimum Mapping
EP1005019A2 (en) Segment-based similarity measurement method for speech recognition
JP2955297B2 (ja) 音声認識システム
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
US5704004A (en) Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Mathur et al. A study of machine learning algorithms in speech recognition and language identification system
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
US20120116764A1 (en) Speech recognition method on sentences in all languages
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
KR20000025827A (ko) 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
Yerramreddy et al. Speaker Identification Using MFCC Feature Extraction: A Comparative Study Using GMM, CNN, RNN, KNN and Random Forest Classifier
JP3075250B2 (ja) 話者認識方法及び装置
Yegnanarayana et al. A speaker verification system using prosodic features.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees