JPH075892A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH075892A
JPH075892A JP6091744A JP9174494A JPH075892A JP H075892 A JPH075892 A JP H075892A JP 6091744 A JP6091744 A JP 6091744A JP 9174494 A JP9174494 A JP 9174494A JP H075892 A JPH075892 A JP H075892A
Authority
JP
Japan
Prior art keywords
speech
speaker
phone
recognition method
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6091744A
Other languages
English (en)
Inventor
Tsuao Yanshin
ツァオ ヤンシン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JPH075892A publication Critical patent/JPH075892A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【目的】音声スペクトルの変動する音源をうまく識別し
処理出来る音声認識方法を提供すること。 【構成】響特性を示すデータを与え、音声をスペクトル
領域に変換し、以て、音声が一連の音声スペクトルによ
って表されるようになし、話者の音響特性に基づいて音
声スペクトルを正規化し、その正規化された音声スペク
トルを使って混合密度音(単音(phone))モデルを作
り、そして話者の音韻特性に基づいてそのモデルを適応
させ、前記混合密度音(単音(phone))モデルととも
に前記正規化された音声スペクトルを使って音声を処理
し、話者の音響特性の個人差とマイクロホン技術のばら
つきによる影響を減少させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識技術に関し、
特に、非常に短い校正音声を使って利用できる改良され
た話者適応化方法に関するものである。
【0002】
【従来の技術】不特定話者の連続音声を統計的にモデリ
ングすることにおける特有の難しさは、話者の音響特性
(話者の発音特性による)、話者の音韻特性(話者の方
言によるアクセントや特異性による)および文脈による
異音の傾向を持つさまざまな音源からの各単位音(単音
(phone unit))のスペクトルがいろいろ変動すること
にある。統計的なモデルでは、話者のこれらの要素によ
って引き起こされるスペクトルの変動範囲をカバーしな
ければならないので、不特定話者モデルは、音韻的に関
連のある事象を復号する上で、個別の話者のための特定
話者モデルよりも劣る。更に、”高精度”不特定話者音
声認識装置であっても、”異常な”話者に対してや、録
音条件が少し変わっただけでうまく働かなくなる。従っ
て、音声認識装置の使用者が適応させる努力をさほどし
なくても、不特定話者で連続する音声の認識行える有効
な適応化技術を開発することが重要なのである。
【0003】
【発明が解決しようとする課題】最近、不特定話者連続
音声認識に話者適応化を組み込むことに関する報告がい
くつかあった。認識精度の改善を成し遂げた技術もいく
つかあるが、これらの改善のためのコストはまだ高い:
平均単語誤り率を2%から25%下げるために、各話者
から数分間の適応化音声が必要である。これらの技術の
共通の弱点は、音声スペクトルの変動する音源がうまく
識別されておらず、うまく処理されていないことにある
ように思える。
【0004】本発明は、このような弱点を克服した音声
認識方法を提供することを目的とする。
【0005】本発明の関連する分野を更に完全に理解す
るには、次の文献が参考になる。
【0006】F. Kabala, R. Schwartz, and Chris Barr
y, "Speaker Adaptation from a Speaker-Independent
Training Corpus", ICASSP論文集、137〜140頁、ニュー
メキシコ州、アルバカーキ、1990年4月; X. Huang and K. Lee, "On Speaker-Independent, Spea
ker-Dependent, Speaker-Adaptive Speech Recognitio
n", ICASSP講演集, 877〜880頁、カナダ、トロント、19
91年5月; W. Rozzi and R. Stern, "Speaker Adaptation in Cont
inuous Speech Recognition via Estimation of Correl
ated Mean Vectors", ICASSP講演集、865〜868頁,カナ
ダ、トロント、1991年5月; B. Necioglu, M. Ostendorf, and R. Rohlicek, "A Bay
esian Approach toSpeaker Adaptation for the Stocha
stic Segment Model", ICASSP講演集、1437〜1440頁、
カリフォルニア州、サンフランシスコ、1992年3月; O.Schmidbauer, J. Tebelskis, "An +VQ Based Referen
ce Model for SpeakerAdaptive Speech Recognition",
ICASSP講演集、1441〜1444頁、カリフォルニア州、サン
フランシスコ、1992年3月; S. Furui,"Unsupervised Speaker Adaptation Method B
ased on HierarchicalSpectral Clustering", ICASSP講
演集、286〜289頁、スコットランド、グラスゴー、1989
年5月; L.F. Lamel, R.H. Kassel, and S. Seneff, "Speech Da
tabase Development:Design and Analysis of the Acou
stic-Phonetic Corpus", Speech RecognitionWorkshop
(DARPA)講演集、1986年; Y. Zhao, "A Speaker-Independent Continuous Speech
Recognition SystemUsing Continuous Mixture Gaussia
n Density HMM of Phonem-Sized Units",IEEE Transact
ions on Speech and Audio, 1993年7月(掲載予定); Y. Zhao and H. Wakita, "Experiments with a Speaker
-IndependentContinuous Speech Recognition System o
n the TIMIT Database", ICSLP講演集、697〜700頁、日
本、神戸、1990年11月; Y. Zhao, H. Wakita, and X. Zhuang, "An HMM Based S
peaker-IndependentContinuous Speech Recognition Sy
stem with Experiments on the TIMITDatabase", ICASS
P講演集、333〜336頁、カナダ、トロント、1991年5月; M.J. Hunt, "Speaker Adaptation for Word Based Spee
ch RecognitionSystem", J. Acoust. Soc. Am., 69:S41
-S42, 1981年; H. Matsumoto and H. Wakita, "Vowel Normalization b
y Frequency WarpedSpectral Matching", Speech Commu
nication, VOl.5, No.2, 239〜251頁、1986年6月; S.J. Cox and J.S. Bridle, "Unsupervised Speaker Ad
aptation byProbabilistic Fitting", ICASSP講演集、2
94〜297頁、スコットランド、グラスゴー、1989年5月; S.J. Cox and J.S. Bridle, "Simultaneous Speaker No
rmalization andUtterance Labelling Using Bayesian/
Neural Net Techniques", ICASSP講演集、161〜164頁、
ニューメキシコ州、アルバカーキ、1990年4月; C.H. Lee, C.H. Lin, and B-H. Juang, "A Study on Sp
eaker Adaptation ofContinuous Density HMM Paramete
rs", ICASSP講演集、145〜148頁、ニューメキシコ州、
アルバカーキ、1990年4月;
【0007】
【課題を解決するための手段及び作用】本発明において
は、変動する音声スペクトルの音源を個別に扱うのに統
計的な方法を使う。適応化は、連続する2つのステップ
に分けられる:第1ステップでは、音声スペクトルが話
者の音響特性に基づいて正規化される;第2ステップで
は、少数の適応化音声を使うだけで文脈による異音の傾
向が有効な適応化のためにモデル化され、この音(単音
(phone))モデルのパラメータが話者の音韻特性に基
づいて適応化されるのである。この2ステップの適応化
方法は、VQベースの独立単語認識における階層的適応
化技術に似ている。基準となる不特定話者連続音声認識
システムでは、音素サイズの音声単位の隠れマルコフ連
鎖モデルにおける連続混合ガウス密度を用いるが、混合
密度パラメータは、個別の単位音(単音(phone uni
t))の学習データのサンプルサイズと分散に比例した
混合サイズを使って、TIMITデータベースの異音サ
ブセグメントから上昇型併合アルゴリズムによって推定
される。基準に比べて、TIMITデータベースと我々
の研究所で収集した音声データに対する実験では、各話
者の音声の適応化にほんの数秒しか掛けないで単語誤り
を著しく減少させることができた。
【0008】更に詳しくいえば、不特定話者連続音声認
識を改良するために、音声スペクトルが変動する音源を
分離することに基づいた話者適応化技術が開発されたの
である。変動する音源は、話者の音響特性や異音の文脈
依存性を含んでいる。統計的方法は定式化され、話者の
音響特性に基づいて音声スペクトルを正規化し、そし
て、話者の音韻論的特性に基づいて混合ガウス密度音
(単音(phone))モデルを適応化するのである。短い
校正音声(5秒/話者)を使った適応化実験では、基準
となる認識システムより実質的に優れた性能改善を示し
た。タスク語彙数が853でテスト集合の複雑さが10
4のTIMITテスト集合では、単語認識精度は86.
9%から90.6%に(28.2%の誤り低減)改善さ
れた。録音チャネルが整合していない、付加的に入れた
変動音源を含み、テスト集合の複雑さが101の別のテ
スト集合では、単語認識精度は65.4%から85.5
%に(58.1%の誤り低減)改善された。
【0009】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。音響的正規化 話者qの音声スペクトルは、標準話者oに対する線形変
換H(q)としてモデル化される。ここで、H(q)はその話
者の発音特性を表している。従って、対数スペクトル領
域において、話者qの音声スペクトルXt (q)は、標準話
者のスペクトル Xt (o)をバイアス・ベクトルh(q)
logH(q)だけずらしたものであって、即ち、Xt (q)
=Xt (o)+h(q)となる。従来の研究でも、話者の声門
音特性によるスペクトルの傾斜をスペクトル・バイアス
の低次の部分と考えることができ、このスペクトルの傾
斜が話者間の変動を引き起こす主な要因であることが示
されていた。バイアス・モデルは、また、対数スペクト
ルと線形関係にあることによって、ケプストラム係数に
も有効であり、動的なスペクトルの特徴は、スペクトル
の相違の特有な計算によるスペクトル・バイアスには影
響されないということに注意が必要である。スペクトル・バイアスの推定 話者による発音の変動を考慮に入れて、単位音(単音
(phone unit))を強制的に整列させるのを避けてスペ
クトル・バイアスを推定するには、教師なしアルゴリズ
ムが好ましい。教師なし最尤度アルゴリズムは、既に、
独立母音と単語認識において話者適応化のためにスペク
トル・バイアスを推定している S.J. Coxand J.S. Brid
le, "Unsupervised Speaker Adaptation by Probabilis
tic Fitting", ICASSP論文集、294〜297頁, スコットラ
ンド、グラスゴー、1989年5月、において定式化されて
いる。この式は本発明に利用しており、不特定話者連続
音声認識のための音響的正規化の方法に拡張している。
【0010】標準話者の統計的モデルは、単一ガウス密
度音(単音(phone))モデルととらえることができ
る。ラベルmi、i=1,2,・・・,Mによって表さ
れるガウス密度をN(μi,Ci)とする。(数1)をt
=1、2、・・・、T(q)に対する正規化スペクトル
(数2)とスペクトル・バイアスh(q)の尤度関数とす
る。
【0011】
【数1】
【0012】
【数2】
【0013】h(q)を推定するための目的関数Jは次の
ように定義され、
【0014】
【数3】
【0015】ここでp(mi|h(q))は一様で、(数
4)と仮定する。
【0016】
【数4】
【0017】ai,t によって事後確率を(数5)と表
せば、Jを最大にする推定(数6)は次の式(数7)で
得られる。
【0018】
【数5】
【0019】
【数6】
【0020】
【数7】
【0021】(数8)の厳密な推定は、(数9)として
(数10)を得るための式の右辺の確率の計算において
(数11)を使うことによって収束するまで繰り返し行
われる。
【0022】
【数8】
【0023】
【数9】
【0024】
【数10】
【0025】
【数11】
【0026】実験では、(数12)について1ステップ
の繰り返し推定を行うと同様な認識性能の改善が見ら
れ、対角の単位共分散マトリクスを使っても同様な結果
が得られたが、完全共分散マトリクスを使うと、不確実
なマトリクスの推定を行ったためと考えられる悪い結果
しか得られなかった。
【0027】
【数12】
【0028】計算を節約するために、事後確率は次の決
定関数に置き換え、
【0029】
【数13】
【0030】単位マトリクスとして固定した共分散につ
いて1ステップの推定のみを行った。 正規化方法 限られた連続音声データで混合密度音(単音(phon
e))モデルを学習させることにおいては、学習データ
を与える話者サブセットによって不特定話者パラメータ
がバイアスされるので、各密度について真に不特定の話
者のパラメータを得ることは困難である。従って、学習
スペクトルからスペクトル・バイアスを取り除くと、音
(単音(phone))モデルが異音の統計的な変動をとら
えるのを更に効率的にすることができる。こういった理
由で、音響的正規化が、学習音声スペクトルとテスト音
声スペクトルの両方に対して行われるのである。各話者
から短い校正音声がとられるが、この”校正音声”によ
って同じ原文内容を表すものとする。学習話者の校正デ
ータを用いて標準話者の統計的モデルを学習し、次いで
個々の話者ごとにスペクトルバイアスを推定する。音響
的正規化が行われた学習データを用いて混合密度音(単
音(phone))モデルを学習し、テストデータは復号化
する前に音響的正規化を行う。以下に記載の実験におい
ては、また、校正音声の必要をなくすためテスト音声の
みを正規化することによって実験を行う。 音(単音(phone))モデル適応化 話者の音韻特徴は、単位音(単音(phone unit))のレ
ベルでの話者スペクトル間のばらつきを導く。各話者に
対する音(単音(phone))モデルパラメータの適応化
には、校正音声の短い一節からのスペクトルによってい
かにして大量の平均ベクトルを適応化させうるかという
点で困難が生じる。適応データを効果的に使用するため
に文脈変調モデルを定式化するが、その場合、校正音声
における異音スペクトルを学習音声における異音スペク
トルと関連づけ、前者を後者へと拡張する。そのような
拡張異音スペクトルからサンプル平均ベクトルを各話者
ごとに推定し、ベイズ推定を通じて混合ガウス密度の平
均ベクトルを適応させる。ベイズ推定は、混合ガウス密
度パラメータの話者適応化において先に使用されてい
る。文脈変調モデル ある異音の文脈変調が線形的にそのスペクトルを変化さ
せるとすると、2つの異音αおよびβの対数スペクトル
間の関係は(数14)となる。
【0031】
【数14】
【0032】ここで、γは文脈変調ベクトル(CMV)
と呼ばれている。
【0033】学習話者qに対して、単位音(単音(phon
e unit))の1つの状態に結びついている校正音声の異
音サブセグメントをX(q)={x1 (q),x2 (q),・・
・,xN (q)}とするが、ここで、サブセグメントはビタ
ビ分割から得られ、各単位音(単音(phone unit))は
3つの状態を取る。学習集合にQの話者がいると仮定す
ると、同等に索引付けされた異音サブセグメントは、対
応する集合Xj={xj (q),q=1,2,・・・,Q}
(j=1,2,・・・,N)に蓄積される。一方、状態
の混合密度の混合部分は、音響的に正規化されると主と
して異音の文脈的変動をモデル化するので、同様の文脈
の異音サブセグメントの集合を含んでいる。混合部分の
異音サブセグメントの集合をY={y1 (q1),y2 (q2)
・・・,yk (qk)}と表すが、ここで、yk (qk)は話者q
kのYにおけるk番目のサブセグメントである。CMV
はXj(j=1,2,・・・,N)とYの間と推定さ
れ、Yは各混合部分を順番に表している。
【0034】XjとYの間のCMVγjを推定するのに、
各yk (qk)εY(k=1,2,・・・,K)が、CMV
の推定において残りの話者の要素を最小にするために、
j (qk)εXjと対にされる。異音サブセグメントyk(q
k)の中のスペクトル分布は、ガウス密度N(μk,Ck
でモデル化することができるが、ここで、異音サブセグ
メントは、通常短すぎてCkのパラメータを信頼性よく
推定できないので、Ckは単一マトリクス|とする。Y
への文脈変調マトリクスXj (qk)を(数15)と定義す
るが、ここで、t=1,2,・・・,Tj (qk)に対して
(数16)である。
【0035】
【数15】
【0036】
【数16】
【0037】そして、γjを推定する目的関数は、次の
結合尤度関数とする。
【0038】
【数17】
【0039】(数18)に対してγjの推定の解は(数
19)と得られるが、ここで、2つのサブセグメントx
j (qk)とyk (qk)と(数20)の重心の差である(数2
1)である。
【0040】
【数18】
【0041】
【数19】
【0042】
【数20】
【0043】
【数21】
【0044】テスト話者qにとって、校正音声中の異音
サブセグメントxj (q)のスペクトルは、(数22)だけ
ずらされ、混合部分Yで定義される文脈環境、即ち、
(数23)に入る。
【0045】
【数22】
【0046】
【数23】
【0047】このようなスペクトル変移は、総ての校正
音声の異音サブセグメントについて、対応する状態と単
位音(単音(phone))の各混合部分に対して行われ
る。平均ベクトルの適応化 混合部分に対するずらされた異音スペクトルは、平均ベ
クトルを適応化するのに使われる。適応化は、続いて、
事後推定を適応化平均ベクトルとし、事前推定を不特定
話者平均ベクトルとするベイズ推定が行われる。混合部
分の適応化平均ベクトルと元の平均ベクトルをそれぞれ
(数24)、(数25)で表し、ずらされたスペクトル
の対応する集合から推定した標本平均ベクトルを(数2
6)とする。
【0048】
【数24】
【0049】
【数25】
【0050】
【数26】
【0051】補間式を次のように定義するが、
【0052】
【数27】
【0053】ここで、Λ=diag(λ1,λ2,・・
・,λL+1)(L+1は特徴次元)である。ベイズ推定
から、補間パラメータは(数28)で、ここで、nは適
応化標本サイズ、σi 2は混合部分ガウス密度の分散項、
σo,i 2は平均の事前ガウス密度の分散項である。
【0054】
【数28】
【0055】σo,i 2は未知であるので、混合部分のサブ
セグメントの平均分散で近似される。集合のサブセグメ
ントの標本分散を{ν1,i 2,ν2,i 2,・・・,νK,i2
i=1,2,・・・,L+1}とし、それらの標本サイ
ズを{n1,n2,・・・,nK}とする。事前分散項は
(数29)と推定される。
【0056】
【数29】
【0057】不特定話者モデルでの適応化性能は、補間
パラメータの値λiによって決まる適応化の度合いに左
右されることが判った。混合部分に対して、平均ベクト
ルを推定するのに適応化データ(サイズN)が元の学習
データ(サイズN)と一緒に使われるとすると、λi
n/(n+N)と決定でき、これは通常非常に小さい。
ベイズ推定においては、λiの値は、事前統計からのゲ
インによって標本サイズ部分はもっと大きいはずであ
る。しかしながら、これらの統計は限られた学習データ
によって近似され、従って、推定誤りが生じやすいので
ある。適応化データが分割や文脈変調による誤りを含ん
でいると、過度に適応化をすることは性能を落とすこと
になる。現在の研究に使われている実際的な方法では、
標本平均が不確実で標本サイズが小さすぎる(n=1)
ときには、適応化をしないでとばし、α<1の上限でλ
iを制限している。実 験 実験は、TIMITデータベースと我々の研究所(ST
L)で収集した音声データで行った。不特定話者HMM
音(単音(phone))モデルは、325人の話者とTI
MITデータベースからの717の文で学習させたが、
学習データは、TIMITで定義された60の音響−音
(単音(phone))ラベルをカバーしている。音声デー
タは、16kHzから10.67kHzに標本化を落と
した。PLP分析のケプストラム係数と対数エネルギー
を瞬間的な特徴として、また、それらの第1次時間回帰
係数を動的な特徴として利用した。分析ウィンドウ・サ
イズは、100サンプル・シフトで200サンプルであ
った。認識性能は、NISTのスコアリング手順を使っ
て評価した。TIMITデータベースの2つの校正文
(SA1とSA2)を適応化音声として利用したが、こ
の音声は、21の短い単語、65の音(単音(phon
e))セグメント、および33の音素(単音(phoneti
c))ラベル(単位音(phone)の約半数をカバーする)
を含んでいた。その2つの文の平均期間は1話者当たり
約5秒であった。
【0058】認識を行う語彙サイズは853で、文法の
複雑さは、TIMITとSTLでそれぞれ104と10
1であった。TIMITのテスト集合は、男性50人、
女性25人の75人の話者があった;186のテスト文
があり、1話者当たり平均2.5文であった。STLの
テスト集合は、男性3人、女性2人の5人のテスト話者
で、各話者は28のTIMITテスト文を話した。TI
MITのデータに比べて、STLのデータは、同じゼン
ハイザー接話マイクロホンを使って収集されたものの、
より高い周辺雑音のもとに置かれ、フィルタ特性も異な
り、TIMITテストとSTLテストを行った時の録音
環境は異なっている。音響的正規化の実験 話者の発音特性によるスペクトル・バイアスを可視化す
るために、TIMITテスト集合の話者について推定し
たh(q)の対数スペクトルを図1aにプロットした。ス
ペクトル・バイアスが話者によって大きく変動している
のが見られる。正規化すると、標準話者モデルが保持さ
れ、テスト話者についてスペクトル・バイアスが再推定
された。これらの新たなh(q)の対数スペクトルを、ス
ペクトル・バイアスが基本的に取り除かれている図1b
に示している。
【0059】不特定話者認識(基準となる)の性能と、
3種類の音響正規化法を使ったものを(表1)に示す:
norm−1では、スペクトル・バイアスの推定におい
て学習話者とテスト話者の両方に対して校正音声を使
い、音(単音(phone))モデルを正規化スペクトルか
ら学習させた;norm−2では、基準となる不特定話
者音(単音(phone))モデルを復号化に使い、各テス
ト文からスペクトル・バイアスを推定した;norm−
3はnorm−2に似ているが、スペクトル・バイアス
を話者のテスト文から累積的に推定した、即ち、話者か
らのそれぞれの新たなテスト文が得られたときに、拡張
されたデータ集合からスペクトル・バイアスが更新され
るのである。この表から、学習スペクトルとテストスペ
クトルの両方に正規化を行うのが最もよい結果が得られ
る;累積データを使うとスペクトル・バイアスの推定が
改善された。STLのテスト集合に関して著しい改善が
見られるが、異なる集音状態に対しても音響的正規化が
有効であることを示している。
【0060】
【表1】
【0061】音(単音(phone))モデル適応化に関す
る実験 音(単音(phone))モデルパラメータの適応化は、瞬
間的なスペクトルの特徴をモデル化しているガウス密度
の平均ベクトルのみに行われ、動的な特徴であるモデル
・パラメータは作用を受けなかった。補間パラメータに
対して3つのケースを考えた:adap−1では、λi
を3.2節のように推定した;adap−2では、(数
30)と(数31)をλiの計算に使うように、分散項
σi 2をμo周辺の適応化データの標本分散項σi 2で平均
化した;adap−3では、分散項σi 2とσo,i 2を等し
いとした。
【0062】
【数30】
【0063】
【数31】
【0064】認識精度を表2に示しているが、λiの上
限αは、0.4から下の0.2までばらついている。こ
の表から判るように、α=0.3でλiを制限すると3
つのケース総てについて最良の結果が得られ、adap
−2が他の2つの方法に比べて、αに関して性能のばら
つきがより小さくなるようである。基準となるものに比
べて、α=0.3としたadap−2で得られた単語復
号精度は、TIMITとSTLのテスト集合に対してそ
れぞれ28.2%と58.1%にものぼる誤り低減とな
る。
【0065】この適応化技術を他の方法と比較するため
に、3つの実験を追加して行い、その結果を(表3)に
まとめている。この表において、直接適応化法では、表
2に示すようにα=0.3のadap−2を使ったが、
音声スペクトルを音響正規化によ0って前処理すること
は行わなかった;再学習法では、上述(SECTION 3.2)
で論じたように標本サイズ部分によってλiを計算し
た;クラスタリング法では、CMVを使わず、代わり
に、適応化データを平均ベクトルの周りでクラスタリン
グし、クラスタ化されたベイズ推定からのそれぞれのデ
ータ集合を使って、この平均ベクトルを適応化した。見
て判るように、表3の方法ではいずれも、(表2)のベ
イズ法(αを使った)ほどには認識精度は改善されなか
った。一方、ヒューリスティック限界αへの要求を緩和
するのに、ベイズ推定で使った分散統計を推定するため
の改善が必要で、また、不確実な適応化標本を同定する
更によい方法も望まれる。
【0066】
【表2】
【0067】
【表3】
【0068】
【発明の効果】本発明によって開発された話者適応化技
術は、非常に短い校正音声を使うことによって認識性能
が基準となるものより著しく改善された。この技術
は、”異常な”話し方をする話者や録音条件が整合が取
れていないときに特に有効である。ベイズ推定において
使われる音声統計の推定を改善したり、適応化のための
音声ダイナミックスなどの付加的な変動する音源を同定
したりすることによって、認識性能の更なる改善が期待
される。
【図面の簡単な説明】
【図1】(図1a)は、TIMITテスト集合における
話者に対して行ったスペクトル・バイアスをグラフ化し
た図、(図1b)は、正規化後のスペクトル・バイアス
を示す同様の図であって、本発明により得られた改善を
示す図である。

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】話者の音響特性を示すデータを与え、 音声をスペクトル領域に変換し、以て、音声が一連の音
    声スペクトルによって表されるようになし、 話者の音響特性に基づいて音声スペクトルを正規化し、 その正規化された音声スペクトルを使って混合密度音
    (単音(phone))モデルを作り、そして話者の音韻特
    性に基づいてそのモデルを適応させ、 前記混合密度音(単音(phone))モデルとともに前記
    正規化された音声スペクトルを使って音声を処理し、話
    者の音響特性の個人差とマイクロホン技術のばらつきに
    よる影響を減少させることを含む音声認識方法。
  2. 【請求項2】話者の音響特性を示すデータを与えるステ
    ップが、予め定められた同じ単語の集合を話す複数の人
    から取ったサンプル音声を与えることによって行われる
    請求項1記載の音声認識方法。
  3. 【請求項3】前記予め定められた単語の集合が連続音声
    の形式で発声される請求項2記載の音声認識方法。
  4. 【請求項4】前記予め定められた単語の集合が音声学的
    に平衡がとれている請求項2記載の音声認識方法。
  5. 【請求項5】音声をスペクトル領域に変換する前記ステ
    ップが、音声の音韻特徴を示すPLPケプストラム係数
    を抽出することを含む請求項1記載の音声認識方法。
  6. 【請求項6】音声をスペクトル領域に変換する前記ステ
    ップが、音声の動的特徴を表す第1次時間回帰係数を抽
    出することを含む請求項1記載の音声認識方法。
  7. 【請求項7】正規化のステップが、スペクトル偏移ベク
    トルを推定し、続いて、前記ベクトルを音声スペクトル
    から取り除くことによって行われる請求項1記載の音声
    認識方法。
  8. 【請求項8】正規化のステップが、予め定められた単語
    の集合を有する校正音声を使い、単一ガウス密度音(単
    音(phone))モデル・パラメータを推定することによ
    って行われる請求項1記載の音声認識方法。
  9. 【請求項9】前記音(単音(phone))モデルを使って
    話者それぞれについてスペクトル偏移ベクトルを推定
    し、続いて、話者それぞれについて音声スペクトルから
    前記ベクトルを除去することを更に含む請求項8記載の
    音声認識方法。
  10. 【請求項10】混合密度音(単音(phone))モデル
    が、音響的に正規化された学習データを使って作られる
    請求項1記載の音声認識方法。
  11. 【請求項11】前記音響的に正規化された学習データ
    が、 (1)校正音声から単一ガウス密度音(単音(phon
    e))モデルの集合を生成し、そして(2)前記ガウス
    密度音(単音(phone))モデルの集合を使ってそれぞ
    れの話者についてスペクトル偏移ベクトルを推定し、続
    いて、それぞれの話者について前記ベクトルを音声スペ
    クトルから除去することによって得られる請求項10記
    載の音声認識方法。
  12. 【請求項12】混合密度音(単音(phone))モデルを
    適応化するステップが、文脈変調され音響的に正規化さ
    れた特定話者の校正音声に基づいてモデル・パラメータ
    を修正することにより行われる請求項1記載の音声認識
    方法。
  13. 【請求項13】文脈変調された校正音声が、文脈変調ベ
    クトルを前記特定話者の校正音声から除去することによ
    って生成される請求項12記載の音声認識方法。
  14. 【請求項14】前記文脈変調ベクトルが、複数の学習話
    者からの校正音声と前記混合密度音(単音(phone))
    モデルに基づいている請求項13記載の音声認識方法。
  15. 【請求項15】前記除去が、単位音(単音(phone uni
    t))の状態に対するガウス混合密度における各ガウス
    密度に対する前記特定話者の校正音声の中の音(単音
    (phone))のセグメントから、文脈変調ベクトルを除
    去することを含む請求項13記載の音声認識方法。
  16. 【請求項16】単位音(単音(phone unit))セグメン
    トが、特定話者の校正音声を自動的に区切ることによっ
    て得られる請求項15記載の音声認識方法。
  17. 【請求項17】単位音(単音(phone unit))セグメン
    トが、特定話者の校正音声をビタビ分割することによっ
    て得られる請求項15記載の音声認識方法。
  18. 【請求項18】モデル・パラメータを修正するステップ
    が、ベイズ推定によって行われる請求項12記載の音声
    認識方法。
  19. 【請求項19】適応化混合密度音(単音(phone))モ
    デルとともに話者それぞれの正規化音声スペクトルを使
    ってそれぞれの話者の音声認識を行うことを更に含む請
    求項1記載の音声認識方法。
JP6091744A 1993-04-29 1994-04-28 音声認識方法 Withdrawn JPH075892A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US5507593A 1993-04-29 1993-04-29
US08/055075 1993-04-29

Publications (1)

Publication Number Publication Date
JPH075892A true JPH075892A (ja) 1995-01-10

Family

ID=21995420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6091744A Withdrawn JPH075892A (ja) 1993-04-29 1994-04-28 音声認識方法

Country Status (2)

Country Link
US (1) US5794192A (ja)
JP (1) JPH075892A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282759A (zh) * 2021-04-23 2021-08-20 国网辽宁省电力有限公司电力科学研究院 一种基于威胁情报的网络安全知识图谱生成方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996006495A1 (en) * 1994-08-18 1996-02-29 British Telecommunications Public Limited Company Test method
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
SE505522C2 (sv) * 1996-07-01 1997-09-08 Telia Ab Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
EP0953971A1 (en) * 1998-05-01 1999-11-03 Entropic Cambridge Research Laboratory Ltd. Speech recognition system and method
US6725208B1 (en) * 1998-10-06 2004-04-20 Pavilion Technologies, Inc. Bayesian neural networks for optimization and control
US6233556B1 (en) 1998-12-16 2001-05-15 Nuance Communications Voice processing and verification system
US6377924B1 (en) * 1999-03-12 2002-04-23 Texas Instruments Incorporated Method of enrolling phone-based speaker specific commands
US6570964B1 (en) 1999-04-16 2003-05-27 Nuance Communications Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system
US7058573B1 (en) 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
US6895083B1 (en) * 2001-05-02 2005-05-17 Verizon Corporate Services Group Inc. System and method for maximum benefit routing
US20050216266A1 (en) * 2004-03-29 2005-09-29 Yifan Gong Incremental adjustment of state-dependent bias parameters for adaptive speech recognition
US20080208578A1 (en) * 2004-09-23 2008-08-28 Koninklijke Philips Electronics, N.V. Robust Speaker-Dependent Speech Recognition System
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
JP5229234B2 (ja) 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
JP5456370B2 (ja) * 2009-05-25 2014-03-26 任天堂株式会社 発音評価プログラム、発音評価装置、発音評価システムおよび発音評価方法
US9595257B2 (en) * 2009-09-28 2017-03-14 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
CN102479507B (zh) * 2010-11-29 2014-07-02 黎自奋 可辨认任何语言句子的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282759A (zh) * 2021-04-23 2021-08-20 国网辽宁省电力有限公司电力科学研究院 一种基于威胁情报的网络安全知识图谱生成方法
CN113282759B (zh) * 2021-04-23 2024-02-20 国网辽宁省电力有限公司电力科学研究院 一种基于威胁情报的网络安全知识图谱生成方法

Also Published As

Publication number Publication date
US5794192A (en) 1998-08-11

Similar Documents

Publication Publication Date Title
JPH075892A (ja) 音声認識方法
Murthy et al. Robust text-independent speaker identification over telephone channels
O’Shaughnessy Automatic speech recognition: History, methods and challenges
Serizel et al. Vocal tract length normalisation approaches to DNN-based children's and adults' speech recognition
Junqua Robust speech recognition in embedded systems and PC applications
Scanzio et al. On the use of a multilingual neural network front-end.
KR20010102549A (ko) 화자 인식 방법 및 장치
Schulze-Forster et al. Joint phoneme alignment and text-informed speech separation on highly corrupted speech
Shrawankar et al. Adverse conditions and ASR techniques for robust speech user interface
US20030182114A1 (en) Robust parameters for noisy speech recognition
Elenius et al. Comparing speech recognition for adults and children
Deligne et al. A robust high accuracy speech recognition system for mobile applications
Badhon et al. State of art research in bengali speech recognition
Molau Normalization in the acoustic feature space for improved speech recognition
Gauvain et al. Experiments with speaker verification over the telephone.
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
US5765124A (en) Time-varying feature space preprocessing procedure for telephone based speech recognition
Unnibhavi et al. A survey of speech recognition on south Indian Languages
Nair et al. A reliable speaker verification system based on LPCC and DTW
Ananthakrishna et al. Effect of time-domain windowing on isolated speech recognition system performance
JPH1097278A (ja) 音声認識方法および装置
Zaw et al. Speaker identification using power spectral subtraction method
Wiggers et al. Medium vocabulary continuous audio-visual speech recognition
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置
Kumar et al. Throat microphone Speech Recognition in Hindi Language using Residual Convolutional Neural Network

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20040319