JP3008799B2 - 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 - Google Patents

音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置

Info

Publication number
JP3008799B2
JP3008799B2 JP7011042A JP1104295A JP3008799B2 JP 3008799 B2 JP3008799 B2 JP 3008799B2 JP 7011042 A JP7011042 A JP 7011042A JP 1104295 A JP1104295 A JP 1104295A JP 3008799 B2 JP3008799 B2 JP 3008799B2
Authority
JP
Japan
Prior art keywords
speech
adaptation
standard pattern
vocabulary
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7011042A
Other languages
English (en)
Other versions
JPH08202385A (ja
Inventor
啓三郎 ▲高▼木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7011042A priority Critical patent/JP3008799B2/ja
Priority to DE69609531T priority patent/DE69609531T2/de
Priority to EP96101048A priority patent/EP0724251B1/en
Priority to US08/592,174 priority patent/US5819223A/en
Publication of JPH08202385A publication Critical patent/JPH08202385A/ja
Application granted granted Critical
Publication of JP3008799B2 publication Critical patent/JP3008799B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置およびワー
ドスポッティング装置に関し、特に入力音声と標準パタ
ンとの違いを適合化させ性能を向上する技術に関するも
のである。
【0002】
【従来の技術】音声の認識を行なう際に、入力音声と標
準パタン音声の性質とが異なることにより音声の認識率
が低下することが知られている。これらの性質の異なり
のうち、特に音声の認識率低下を招く大きな要因として
は、話者の発声環境によるものと話者自身の音声による
ものの2つの要因に大別される。また、環境の要因はさ
らに背景雑音のように発声者の音声と同時に混入しスペ
クトル上で加法的に作用する付加雑音とマイクロホンや
電話回線の伝達特性などのようにスペクトルそのものを
歪ませ、スペクトル上で乗法的に作用する回線歪みの2
つの要因に分けられる。
【0003】従来、これらの異なりに対処するための種
々の適応化手法が存在する。例えば、環境による付加雑
音、回線歪みの2つの要因に対処し、環境による音声の
認識率の低下を防止することを目的とした適応化手法が
存在している。例えば、高木、服部、渡辺“スペクトル
写像による環境適応機能を有する音声認識”、音響学会
春季講演論文集、2−P−8,pp.173−174
(1994.3)(以下引用文献[1]とする)に示す
音声認識装置に用いられる音声適応化装置は例えば図7
に示すような構成となる。以下、引用文献[1]の手法
について詳細に説明する。付加雑音および伝送歪みによ
って変形を受けた入力音声は、分析部111にて特徴ベ
クトルの時系列に変換される。標準パタン113は、予
め学習用音声を分析部111と同様の方法で分析したも
のを学習し、認識対象単語毎の時系列情報を保持してあ
り、各単語標準パタンには予め音声区間、雑音区間の別
を示すラベルが付与されている。予備マッチング部11
2は入力音声の特徴ベクトルの時系列と標準パタンの各
単語標準パタンの時系列との間のマッチングを行ない、
第1位の単語標準パタンを選出し、さらに入力音声とそ
の単語標準パタンとの間の時間軸に関する対応付けを求
める。平均ベクトル算出部114は、予備マッチング部
112によって得られた第1位の単語標準パタンと入力
音声の特徴ベクトルとの間の対応付けを元に、それぞれ
の雑音区間、音声区間の平均ベクトルを算出する。ここ
で、入力音声の音声区間および雑音区間の平均ベクトル
をそれぞれSv ,Nv とし、単語標準パタンの音声区間
および雑音区間の平均ベクトルをそれぞれSw ,Nw と
する。補正部115は平均ベクトル算出部114で求め
られた4つの平均ベクトルを用い、
【0004】
【数1】
【0005】で標準パタンの適応化を行なう。ただし、
W(t)は適応化前の標準パタン(tは全標準パタンの
インデクス)、
【0006】
【外1】
【0007】は適応化後の標準パタンとする。このよう
な適応化を行なうことにより標準パタンと入力音声との
間の環境の差異が無くなり、入力環境が変化した場合で
も安定で高い性能を有する音声適応化装置を提供するこ
とが可能である。
【0008】
【発明が解決しようとする課題】しかしながら、従来の
音声適応化装置においては、標準パタン113が単語標
準パタンであったため、入力音声は事前に用意された単
語のいずれかでなければならないという問題点があっ
た。すなわち、入力音声として事前に用意された単語以
外のものが入力された場合に適応化後の性能が著しく低
下するという問題点があった。
【0009】また、連続音声認識に音声適応化装置を組
み込む場合には、入力音声が連続音声であるため、標準
パタンは単語標準パタンを用いて連続音声が受理可能な
構成が必要となるため、これを用いた予備マッチングの
計算量およびメモリ量が膨大となり、容易に実現出来な
いという問題点があった。また、連続音声などの自然な
発声には言い淀み、繰り返し、不要語など、事前に予測
不可能な音声が混在することが多く、語彙を事前に定め
るような従来の音声適応化装置では、予め定義された語
彙以外の音声が入力された場合には適応化の性能が著し
く低下し、ひいては連続音声の認識性能が低下するとい
う問題点を有している。
【0010】さらに、ワードスポッティングに音声適応
化装置を組み込む場合は、入力音声が語彙に関して殆ど
事前に予測不可能であり、適応化用の単語標準パタンを
事前に用意することが出来ないという問題点があった。
【0011】本発明は上述の問題を解決するものであ
り、その目的は、認識時の入力音声の発声内容が未知で
あっても、高精度な適応化を行なうことが可能な音声適
応化装置を提供することにある。
【0012】
【課題を解決するための手段】本発明による第1の音声
適応化装置は、入力音声を特徴ベクトルの時系列に変換
する分析部と、1つ以上のカテゴリを有し、各カテゴリ
に1つ以上の音響単位を有し、音声に現れるどのような
音響単位の連鎖も受理可能であるような音響単位の接続
関係を有する語彙非依存標準パタンと、分析部から得ら
れた入力音声の特徴ベクトルの時系列と前記語彙非依存
標準パタンとの間の対応付けを行ない、入力音声の特徴
ベクトルと前記語彙非依存標準パタンのカテゴリ毎の対
応付け部分から入力音声および語彙非依存標準パタンの
カテゴリ毎の平均ベクトルを求める予備マッチング部
と、予備マッチング部が算出したカテゴリ毎の平均ベク
トルを用いて入力音声の特徴ベクトルの時系列もしくは
前記語彙非依存標準パタンのどちらか一方または両方に
対して補正を行なう適応化部とを有する。
【0013】本発明による第2の発明の音声適応化装置
は、本発明の第1の音声適応化装置の語彙非依存標準パ
タンのカテゴリが1つ以上の雑音カテゴリと1つ以上の
音声カテゴリ(音声をS、雑音をNで表す)であって、
適応化部は、前記入力音声の特徴ベクトルの時系列もし
くは語彙非依存標準パタンのどちらか一方の雑音部分を
他方の雑音部分の平均ベクトルNiで置換し、どちらか
一方の音声部分から其方の雑音部分の平均ベクトルNt
を減じた後に(Si−Ni)/(St−Nt)を乗じ
(/はベクトルのチャンネル毎の除算、Siは他方の音
声部分の平均ベクトル、Stは其方の音声部分の平均ベ
クトル)、さらにNiを加算することを特徴とする。
【0014】本発明による第3の音声適応化装置は、本
発明の第1の音声適応化装置の適応化部は、カテゴリ毎
の平均ベクトルの差を用いて入力音声の特徴ベクトルの
時系列もしくは語彙非依存標準パタンのどちらか一方ま
たは両方に対して補正を行なうことを特徴とする。
【0015】本発明による第4の音声適応化装置は、本
発明の第1または第2または第3の音声適応化装置の語
彙非依存標準パタンの音響単位が音声に出現する子音
(C)と母音(V)と雑音(N)を基本とするものであ
るか、またはこれらの2つ以上の連鎖(例えばCV、V
C、CVC、VNなど)を基本とする。
【0016】本発明による第5の音声適応化装置は、本
発明の第4の音声適応化装置の語彙非依存標準パタンの
音響単位がHMM(Hidden Markov Mo
del),学習用音声の時系列特徴ベクトルの一部又は
ベクトル量子化を行なった後の各セントロイドを用いて
作成されたことを特徴とする。
【0017】本発明による第6の音声適応化装置(請求
項1、2、3に対応する。)は、本発明の第1または第
2または第3の音声適応化装置の語彙非依存標準パタン
音響単位がベクトル量子化を行なった後の各セントロ
イド又はHMMの分布であることを特徴とする。
【0018】本発明の第7の音声適応化装置(請求項4
に対応する。)は、本発明の第6の音声適応化装置の語
彙非依存標準パタンが認識用またはワードスポッティン
グ用標準パタンの音響単位を用いて作成されたことを特
徴とする。
【0019】本発明の単語音声認識装置(請求項5に対
応する。)は、本発明による第7の音声適応化装置と、
音声適応化装置が適応化した結果を用いて単語認識を行
なう単語認識部とを有する。
【0020】本発明による連続音声認識装置(請求項6
に対応する。)は、本発明による第7の音声適応化装置
と、音声適応化装置が適応化した結果を用いて連続音声
認識を行なう連続音声認識部とを有する。
【0021】本発明によるワードスポッティング装置
(請求項7に対応する。)は、本発明による第7の音声
適応化装置と、音声適応化装置が適応化した結果を用い
てワードスポッティングを行なうワードスポッティング
部とを有する。
【0022】
【作用】本発明は、認識時の入力音声を用いて、入力音
声と標準パタンとを適合させる方式において、語彙非
標準パタンを用いることにより、事前に内容を知るこ
とが出来ない入力音声に対しても高精度な適応化が可能
であり、発声内容に影響されない高性能な適応化装置を
提供できるという効果を得るものであり、従来の音声適
応化装置が有していた欠点を補う効果を得るものであ
る。
【0023】本発明による第1の適応化装置の作用を図
1、図2を用いて説明する。ここでは、適応化部4とし
て、引用文献[1]に示すものを例に説明するが、この
他話者適応などの適応化技術も同様に用いることが可能
である。雑音を含む入力音声は分析部1にて特徴ベクト
ルの時系列に変換される。一般に特徴ベクトルとして良
く用いられているものは、例えば古井:“ディジタル音
声処理”、東海大学出版、pp.154−160(19
85)(以下引用文献[2]とする)に述べられている
種々のものが知られているが、ここではLPC分析、F
FT分析などによって得られるスペクトルを用いる場合
について述べることとし、その導出法については述べな
い。得られたスペクトルの時系列をX(t)(tは離散
的な時刻)で表す。なお、特徴ベクトルとしてケプスト
ラムを用いる場合においても、スペクトルとケプストラ
ムとの間は互いに可逆であることが自明であるため、こ
こではスペクトルを使った場合のみ説明する。入力音声
は一般に音声の始終端を正確に切り出すことは困難であ
り、始端の子音が欠落する場合も起こり得るので、通常
は切り出した始終端より少し長めの音声を分析すること
で音声の欠落を防止している。語彙非依存標準パタン3
には予め標準話者音声を分析部1と同様の方法を用いて
分析したものを例えば、図2に示すように音声部分の音
響単位および雑音部分の音響単位の2つのカテゴリに分
類して、例えば、2状態のHMM(Hidden Ma
rkov Model)として登録してある。つまり、
語彙非依存標準パタン3を学習した音声は語彙を規定す
る音韻の組み合わせに関しては有限個であるが、ある程
度十分な量の音声で学習すれば、各音韻(例えば音節)
単独で見た場合には殆どのものが出現していることにな
る。したがって、標準パタンの音響単位として単語など
の大きな単位を用いるのではなく、それより小さな(例
えば音節)単位を用いて構成し、それらの全ての遷移が
受理可能なように接続すれば、対象とする言語の全ての
音声が受理可能な標準パタンを構成することが可能であ
る。予備マッチング部2は入力音声の特徴ベクトルの時
系列X(t)と語彙非依存標準パタン3との間の対応付
けを行ない入力音声が語彙非依存標準パタン3の音声と
雑音のどちらに属するかを決定し、同時に音声部分、雑
音部分の入力音声および語彙非依存標準パタン3の平均
ベクトルをそれぞれ出力する。入力音声の音声および雑
音の平均ベクトルをそれぞれSv ,Nv とし、語彙非依
存標準パタン3の音声および雑音の平均ベクトルをそれ
ぞれSw ,Nw とする。適応化部4はこの4つの平均ベ
クトルを用い、
【0024】
【数2】
【0025】で標準パタンの適応化を行なう。ただし、
W(t)は適応化前の標準パタン(tは全標準パタンの
インデクス)、
【0026】
【外2】
【0027】は適応化後の標準パタンとする。ここでは
標準パタンを入力音声に適応化する方式のみについて説
明したが、逆に入力音声を標準パタンに適応化すること
も、また両者を互いに適応化することももちろん可能で
ある。
【0028】すなわち、本発明によれば、適応化のため
の音声は語彙に関して未知であっても適応化が行なえる
ため、入力音声の発声内容に影響されない高性能な音声
適応化装置を提供できるという効果を得、従来の音声適
応化装置が有していた欠点を補う効果を有する。
【0029】
【実施例】以下、図面を参照しながら本発明の一実施例
について具体的に説明する。
【0030】図1は本発明による第1〜第7の音声適応
化装置を示す一実施例のブロック図である。
【0031】本発明による第1の音声適応化装置は、入
力音声を特徴ベクトルの時系列に変換する分析部1と、
1つ以上のカテゴリを有し、各カテゴリに1つ以上の音
響単位を有し、音声に現れるどのような音響単位の連鎖
も受理可能であるような音響単位の接続関係を有する語
彙非依存標準パタン3と、分析部1から得られた入力音
声の特徴ベクトルの時系列と語彙非依存標準パタン3と
の間の対応付けを行ない、入力音声の特徴ベクトルと語
彙非依存標準パタン3のカテゴリ毎の対応付け部分から
入力音声および語彙非依存標準パタン3のカテゴリ毎の
平均ベクトルを求める予備マッチング部2と、予備マッ
チング部2が算出したカテゴリ毎の平均ベクトルを用い
て入力音声の特徴ベクトルの時系列もしくは語彙非依存
標準パタン3のどちらか一方または両方に対して補正を
行なう適応化部4とを有している。
【0032】雑音を含む入力音声は分析部1にて予備マ
ッチングのための特徴ベクトルの時系列に変換される。
一般に特徴ベクトルとして良く用いられているものは、
パワー情報、パワー情報の変化量、ケプストラム、ケプ
ストラムの線形回帰係数などが考えられ、これらを組み
合わせたものを特徴ベクトルとすることも可能である。
あるいはまた、スペクトルそのものを用いたり、対数化
スペクトルを用いることも可能である。入力音声には通
常発声の前後に音声のない、周囲雑音だけが含まれる部
分が存在する。語彙非依存標準パタン3は音声に現れる
どのような音響単位の連鎖も受理可能であるような音響
単位の接続関係を持たせることにより語彙に関して依存
しないものとなっている。この標準パタンの作成の方法
は例えば引用文献[2]のpp.162−170に述べ
られているようにHMM(Hidden Markov
Model)を用いたものであっても、またベクトル
量子化を行なったコードブックであっても音声の特徴ベ
クトルであっても良い。あらゆる語彙を受け付けること
を可能とするためには、たとえば、学習音声または学習
結果を部分的に切り出した音響単位同士の全ての連結関
係をもつように構成することによって実現される。例え
ば、これを実現する一つの方法としては、日本語を対象
とした場合では、/あ/、/い/、/う/、・・・/ん
/などの各音節に相当する音響単位間の全ての遷移を許
し、音節のあらゆる時系列が受理可能なように接続する
ことにより実現される。この音響単位としては、種々の
ものが考えられるが、単語と同等かそれ未満の長さのも
のを用いるのが好適である。また、例えば、日本語では
現れないような音節の連鎖(例えば、/んっ/)などの
連結を行わないように構成することも可能である。予備
マッチング部2は、このようにして作成された語彙非依
存標準パタン3と入力音声の特徴ベクトルの時系列との
間の対応付けを行なう。この対応付けは、時間軸正規化
マッチングとしてDPマッチングあるいはHMM(Hi
dden Markov Model)などの方法が挙
げられる。さらに、語彙非依存標準パタン3の各音響単
位が時間軸方向の非線形伸縮機能を持たない(音響単位
が必ず入力の固定長フレームと対応する)場合には、時
間軸正規化マッチングを用いなくても良く、単純に各時
刻における尤度最大の音響単位を選択するだけの処理で
実現可能である。この様にして求められた対応付け情報
を元にして、各カテゴリ毎の平均値が入力および標準パ
タンの双方に対して求められる。適応化部4は予備マッ
チング部2にて得られた各カテゴリ毎の平均値を用い
て、入力音声または語彙非依存標準パタン3のどちらか
一方、あるいは両方に対して適応化を行ない、その結果
を出力する。
【0033】図2は本発明による第2の音声適応化装置
における語彙非依存標準パタンの一例を示す図である。
この音声適応化装置は、語彙非依存標準パタン3のカテ
ゴリが1つ以上の雑音カテゴリと1つ以上の音声カテゴ
リ(音声をS、雑音をNで表す)であって、入力音声の
特徴ベクトルの時系列もしくは語彙非依存標準パタン3
のどちらか一方の雑音部分を他方の雑音部分の平均ベク
トルNiで置換し、どちらか一方の音声部分から其方の
雑音部分の平均ベクトルNtを減じた後に(Si−N
i)(St−Nt)を乗じ(/はベクトルのチャンネル
毎の除算、Siは他方の音声部分の平均ベクトル、St
は其方の音声部分の平均ベクトル)、さらにNiを加算
する適応化部4を有している。
【0034】語彙非依存標準パタン3は、学習用音声か
ら学習された音響単位を音声部分および雑音部分に分
け、音声および雑音の2つのカテゴリに対応付ける。2
つのカテゴリ相互並びにカテゴリ内の遷移は自由に行な
うことが可能である。音声および雑音には複数の音響単
位が存在していても良く、予備マッチング部2において
行なわれる対応付けは、各時刻における尤度最大の音響
単位を選択し、それが音声カテゴリであるか雑音である
かにより平均値をカテゴリ毎に積算する。このような構
成とすることにより、使用する言語に現れるいかなる発
声内容に対しても受理することが可能である。適応化部
4は、例えば引用文献[1]にあるような適応化を行な
う。入力音声の音声区間および雑音区間の平均ベクトル
をそれぞれSv ,Nv とし、単語標準パタンの音声区間
および雑音区間の平均ベクトルをそれぞれSw ,Nw
すると、適応化部4は例えば
【0035】
【数3】
【0036】で標準パタンの適応化を行なう。ただし、
W(t)は適応化前の標準パタン(tは全標準パタンの
インデクス)、
【0037】
【外3】
【0038】は適応化後の標準パタンとする。また標準
パタンのうち雑音カテゴリに属するものは入力の雑音の
平均ベクトルNv で置換する。この例では、標準パタン
に対する適応化を示したが、入力音声に対しても同様の
処理を行なうことも可能である。この適応化手法はスペ
クトル上での適応化であるが、特徴ベクトルがケプスト
ラムであるように場合には、ケプストラムとスペクトル
相互間の変換部を設けることにより容易に実現可能であ
る。この場合、平均ベクトルはケプストラム上で求めて
も良いし、一旦スペクトルに変換した後に求めても良
い。
【0039】本発明による第3の音声適応化装置は、カ
テゴリ毎の平均ベクトルの差を用いて入力音声の特徴ベ
クトルの時系列もしくは語彙非依存標準パタン3のどち
らか一方または両方に対して補正を行なう適応化部4を
有している。
【0040】適応化部4としては、カテゴリ毎の平均値
を利用する適応化手法であれば、どの様なものでも実現
可能である。例えば、話者適応などの方式を用いること
も可能である。例えば、篠田、磯、渡辺“音声認識のた
めのスペクトル内挿を用いた話者適応化”、電子情報通
信学会論文誌、A.Vol.J77−A、No.2,p
p,120−127(1994年2月)(以下引用文献
[3]とする)に示す話者適応を用いた場合は以下の様
になる。入力のカテゴリjに対する平均値
【0041】
【外4】
【0042】と、標準パタンのカテゴリjに対する平均
値μj とを用いてそのカテゴリ毎の適応化ベクトルΔj
を以下のように求める。
【0043】
【数4】
【0044】また、入力音声中にカテゴリが存在しない
標準パタンのカテゴリiに対しては、引用文献[3]に
述べられているように、
【0045】
【数5】
【0046】で表されるスペクトル内挿と呼ばれる方法
を用いることも可能となる。ただしjは入力音声中に音
響カテゴリが存在する標準パタンのカテゴリを表すもの
とする。これらの適応化ベクトルを用いて適応化部4
は、音響カテゴリiあるいはjに属するすべての標準パ
タンkに対して、
【0047】
【数6】
【0048】で適応化する。ただし、Δはkの種類によ
りΔi またはΔj のどちらか一方を適宜選択して用いる
ものとする。この例では、適応化ベクトルを用いて標準
パタン4を大きく適応化した場合について述べたが、例
えば適当な係数αを用いて、
【0049】
【数7】
【0050】のようにαを用いることで適応化の度合を
制御し、大きく適応化するのを防ぐように構成すること
可能である。この例では、適応化部4は語彙非依存標準
パタン3に対してのみ適応化しているが、入力音声に対
して同等の処理をすることももちろん可能である。
【0051】また、ケプストラム平均値補正(CMN:
Cepstrum Mean Normalizati
on)と呼ばれる方式が存在している。例えば、A.
E.Rosenberg,et al.:“Cepst
ral Channel Normalization
Technique for HMM−BasedS
peaker Verification”,ICSL
P94,S31.1,pp.1835−1838(19
94)(以下引用文献[4]とする)に用いられている
音声適応化装置では、カテゴリ数は2(音声および雑
音)であって、特徴ベクトルはケプストラムを用い、入
力音声の音声部分に対してのみ適応化を行なう。もちろ
ん引用文献[4]では語彙非依存標準パタンではなく、
単語標準パタンを用いているが、この適応化手法を本発
明の適応化部4に用いることが可能である。具体的に示
すと、入力音声の音声部分の特徴ベクトル(ケプストラ
ム)をyt 、その音声部分の特徴ベクトルの平均値を
【0052】
【外5】
【0053】、標準パタンの音声部分の平均値を
【0054】
【外6】
【0055】とすると、
【0056】
【数8】
【0057】により適応化を行なう。すなわち、入力音
声をそのカテゴリの平均ベクトルの差を用いて置換す
る。
【0058】図3は本発明による第4の音声適応化装置
における語彙非依存標準パタンの一例を示す図である。
この音声適応化装置は、本発明の第1または第2または
第3の音声適応化装置の語彙非依存標準パタン3の音響
単位が音声に出現する子音(C)と母音(V)と雑音
(N)を基本とするものであるか、またはこれらの2つ
以上の連鎖(例えばCV、VC、CVC、VNなど)を
基本とする語彙非依存標準パタン3を有する。
【0059】図3は例えば、3つのカテゴリを有し、各
カテゴリの音響単位が音節である場合を示している。こ
こでは日本語の場合を示したが、これ以外の言語でも同
様に構成することが可能である。各カテゴリ間およびカ
テゴリ内部では自由に遷移可能であり、したがって出現
する全ての音節が3つのカテゴリのいずれかに属するよ
うに構成すれば、言語内のあらゆる発声を受理可能とな
る。ここでは、音響単位が音節である場合を示したが、
音節が2つ以上連鎖した単位を用いることも可能であ
り、また音節に類似した単位であればどのようなもので
も用いることが可能である。このような構成を用いる利
点は、音響単位に予め言語的な情報が付随しているた
め、例えば/んっ/のように、その言語であり得ない様
な接続を行なわないような構成が可能であり、予備マッ
チングの精度が向上し、ひいては高い適応化性能を有す
る。さらに、音響単位をワードスポッティングまたは音
声認識用の辞書と共通に用いることにより適応化結果が
直接ワードスポッティングまたは認識に反映され、より
高性能な装置の提供が可能となる。
【0060】本発明による第5の音声適応化装置は、本
発明の第4の音声適応化装置における語彙非依存標準パ
タンの音響単位が例えばHMMを用いて作成されてい
る。HMMは通常1以上の状態を有し、例えば図3に示
す音響単位の例では、各音響単位が独立のHMMで構成
されている。
【0061】本発明による第5の音声適応化装置は、本
発明の第4の音声適応化装置における語彙非依存標準パ
タンの音響単位が例えば学習用音声の時系列特徴ベクト
ルの一部を用いて作成されている。例えば、学習音声が
/東京/という発声であった場合には、これを/to/
/u//kyo//u/の様に音節毎にセグメンテーシ
ョンして切り離し、この切り離した各音節の特徴ベクト
ルを音響単位として構成する。セグメンテーションは視
察により行なうことも可能であるし、また既に学習した
HMMを用いて自動で行なうことも可能である。
【0062】本発明による第5の音声適応化装置は、本
発明の第4の音声適応化装置における語彙非依存標準パ
タンの音響単位がベクトル量子化を行なった後の各セン
トロイドを用いて作成されている。ベクトル量子化は音
声の認識、符号化に広く用いられている方式であり、ほ
ぼ無限に点在する音響空間内のベクトルを、近傍毎にま
とめて有限個のベクトルで表現する手法である。このベ
クトル量子化手法については、例えば、中川:“確率モ
デルを用いた音声認識”電子情報通信学会、コロナ社、
pp.26−28(昭和63)に述べられておりここで
は述べない。例えば、多数の学習音声をベクトル量子化
して作成されたコードブックの連鎖により音節などの単
位で標準パタンを作成することが可能である。このよう
にして得られた音節などの音響単位を用いて語彙非依存
標準パタン3を構成する。
【0063】本発明による第6の音声適応化装置は、本
発明の第1または第2または第3の音声適応化装置の語
彙非依存標準パタン3の音響単位が例えばHMMの分布
であるような語彙非依存標準パタン3を有している。
【0064】通常、HMMは複数の状態の連鎖で構成さ
れており、この状態の連鎖を切り離し、それを音響単位
とすることにより、あらゆる内容の発声が受理可能とな
る構成となっている。この様な構成の利点は、元となる
標準パタンが、音節などのより小さな基本単位に予め分
けて構成されてない場合(例えば単語テンプレート毎に
学習を行なう方式、いわゆるサブワードベースでない方
式)においても、予めセグメンテーションを行なうこと
なしに容易にこの種の音声適応化装置が構成可能であ
る。
【0065】本発明による第6の音声適応化装置は、本
発明の第1または第2または第3の音声適応化装置の語
彙非依存標準パタン3の音響単位が例えばベクトル量子
化を行なった後の各セントロイドであるような語彙非依
存標準パタン3を有する。
【0066】元となる標準パタンがベクトル量子化手法
を用いて構成されるような場合には、音響単位として各
クラスタ重心(セントロイド)を用いることが可能であ
る。多数の音声を用いてベクトル量子化を行ない、この
得られたコードブックのセントロイドを音響単位として
用いて語彙非依存標準パタン3を構成することにより、
あらゆる内容の発声が受理可能となる。この様な構成の
利点は、本発明の第6の音声適応化装置が共通に有する
利点に加えて、音響単位が時間軸方向に非線形な伸縮機
能を持たないため、予備マッチングとして単純な方式で
実現可能である点にある。
【0067】本発明による第6の音声適応化装置は、本
発明の第1または第2または第3の音声適応化装置の語
彙非依存標準パタン3の音響単位が例えばHMMの分布
であるような語彙非依存標準パタン3を有している。
【0068】通常、HMMは複数の状態の連鎖で構成さ
れており、各状態は複数の分布を有するいわゆるマルチ
ガウシアンと呼ばれる構成が可能である。これらのHM
Mの各状態を個々に切り離し、これを音響単位として語
彙非依存標準パタン3を構成することが可能である。こ
のような構成とすることにより、あらゆる内容の発声が
受理可能である。この様な構成の利点は、本発明の第6
の音声適応化装置が共通に有する利点に加えて、音響単
位が時間軸方向に非線形な伸縮機能を持たないため、予
備マッチングとして単純な方法で実現可能である点にあ
る。
【0069】本発明による第7の音声適応化装置は、本
発明の第1または第2または第3または第4または第5
の語彙非依存標準パタンが認識用またはワードスポッテ
ィング用標準パタンの音響単位を用いて作成されてい
る。
【0070】例えば、図3の例を用いて説明する。ワー
ドスポッティングまたは音声認識用の標準パタンは音節
を基本とした音響単位を有しており、例えば/東京/と
いう認識またはワードスポッティング語彙を定める場合
には、/to//u//kyo//u/のように音響単
位を連結して標準パタンを構成する。一方語彙非依存標
準パタンはこれらの音節の音響単位を単独で用い、しか
も、例えば図3の様に全ての音節間の遷移を受理可能な
ように構成すれば、言語内のあらゆる内容の発声に対し
ても受理可能なように構成することが可能である。
【0071】図4は本発明の単語音声認識装置の一実施
例のブロック図である。この単語認識装置は、本発明に
よる第7の音声適応化装置81を有し、その適応化結果
を用いて単語認識を行なう単語認識部82とを有してい
る。
【0072】音声適応化装置81にて適応化された入力
音声および標準パタンは単語認識部82にて単語認識が
行なわれる。この様な構成とすることにより、音声適応
化装置81は単語認識部82の語彙に依存しないため、
たとえ単語認識の語彙にないような発声で適応化を行な
っても、適応化後の性能が低下しない。従来例えば、過
去に入力した音声も利用して適応化を行なうような方式
の場合、過去に一旦認識対象にない音声で適応化を行な
うと、それ以後の音声認識性能が低下する場合があった
が、このような場合においても適応化は高性能に行なわ
れるため、語彙に依存しない安定な適応化機能を有する
単語音声認識装置の提供が可能である。また、例えば、
音声認識装置に語彙以外の音声入力に対しては拒絶を行
なう、いわゆるリジェクションと呼ばれる機能をもつも
のがあり、この場合にも、語彙に依存しないような、本
発明の音声適応化装置を用いることにより高性能なリジ
ェクトが実現される。
【0073】図5は本発明の連続音声認識装置の一実施
例のブロック図である。この連続音声認識装置は、本発
明による第7の音声適応化装置91を有し、その適応化
結果を用いて連続音声認識を行なう連続音声認識部92
とを有している。
【0074】音声適応化装置91にて適応化された入力
音声および標準パタンは連続音声認識部92にて連続音
声認識が行なわれる。一般に連続音声認識には多くの計
算量を必要とする。従来の音声適応化装置では単語標準
パタンを用いていたため、この単語標準パタンを用いて
連続音声を受理可能な構成とし、この標準パタンを用い
て予備マッチングを行なうには、多くの計算量、メモリ
量を必要としていたが、音声適応化部91は連続音声認
識部92の語彙に依存せず、より少ない計算量で適応化
を行なう。また、一般に連続音声中には、言い淀み、繰
り返し、不要語など、多くの予測不能な言語現象が発生
するが、従来の単語標準パタンを用いた音声適応化装置
では、これらの発声に対して対処できなかったが、ここ
では、語彙に依存しない高性能な音声適応化装置を用い
ることで、高い認識性能を有する装置の提供が可能であ
る。
【0075】図6は本発明のワードスポッティング装置
の一実施例のブロック図である。このワードスポッティ
ング装置は、本発明による第7の音声適応化装置101
を有し、その適応化結果を用いてワードスポッティング
を行なうワードスポッティング部102とを有してい
る。
【0076】音声適応化装置101にて適応化された入
力音声および標準パタンはワードスポッティング部10
にてワードスポッティングが行なわれる。一般に、連
続会話中から事前に定めた単語が存在するかどうかの判
定を行なうワードスポッティングにおいては入力音声は
全て未知であるため、従来の単語標準パタンを用いた音
声適応化装置では、語彙が未知であるため単語標準パタ
ンを事前に用意することが不可能であり、この様な装置
を提供することが出来なかった。しかし、本発明の音声
適応化装置を用いることにより、語彙が未知であっても
良く、高性能なワードスポッティング装置の提供がはじ
めて可能となった。
【0077】
【発明の効果】以上から明らかなように、本発明の第1
の音声適応化装置によれば、入力音声の語彙に関して依
存しないため、どの様な音声に対しても安定な適応化が
実現できるという効果を有する。
【0078】本発明の第2および第3の音声適応化装置
によれば、この種の音声適応化装置が有していた効果に
加えて入力音声の語彙に関して依存しない高性能な音声
適応化装置を提供できるという効果を得る。
【0079】本発明の第4および第5の音声適応化装置
によれば、入力音声の語彙に関して依存しない高性能な
音声適応化装置を提供できるばかりでなく、対象とする
言語であり得ない様な遷移を制限することが可能であ
り、より高性能な音声適応化装置を提供できるという効
果を有する。
【0080】本発明の第6の音声適応化装置によれば、
入力音声の語彙に関して依存しない高性能な音声適応化
装置を提供できるばかりでなく、音節などのより小さな
基本単位に予め分けて構成されていない場合においても
予めセグメンテーションを行なうことなしに容易にこの
種の音声適応化装置を提供出来るという効果を有する。
【0081】本発明の第6の音声適応化装置をベクトル
量子化した後の各セントロイドまたはHMMの分布を用
いて構成すれば、本発明の第6の音声適応化装置が有す
る効果に加えて、音響単位が時間軸方向の非線形伸縮機
能を持たないので、より簡便なマッチング手法で実現可
能であり、ひいてはより廉価な装置の提供が可能である
という効果を有する。
【0082】本発明の第7の音声適応化装置によれば、
音響単位をワードスポッティングまたは音声認識用の標
準パタンと共通に用いることにより適応化結果が直接ワ
ードスポッティングまたは認識に反映され、より高性能
な装置の提供が可能となるという効果を有する。
【0083】本発明の単語音声認識装置によれば、語彙
に依存しない安定な適応化機能を有する単語音声認識装
置の提供が可能であるという効果を有する。また、リジ
ェクション機能をもつ単語音声認識装置の場合にも、適
応化は語彙に依存しないため、リジェクトされるべき単
語で適応化を行なっても性能は低下せず、より高性能な
リジェクトが実現される。
【0084】本発明の連続音声認識装置によれば、適応
化の計算量、メモリ量が大幅に削減されるため、より廉
価な装置の提供が可能であるばかりでなく、語彙に依存
しない高性能な音声適応化装置を用いているので、言い
淀み、繰り返し、不要語など、多くの予測不能な言語現
象が起こった場合においても、安定で高性能な連続音声
認識装置が提供可能であるという効果を有する。
【0085】本発明のワードスポッティング装置によれ
ば、従来この種の適応化装置を用いて構成することが出
来なかったが、語彙に依存しない音声適応化装置を用い
ることによりはじめて可能となったという効果を有す
る。
【図面の簡単な説明】
【図1】本発明による音声適応化装置の一実施例を示す
ブロック図である。
【図2】本発明による音声適応化装置の語彙非依存標準
パタンの一例を示す図である。
【図3】本発明による音声適応化装置の語彙非依存標準
パタンの一例を示す図である。
【図4】本発明による単語音声認識装置の一実施例を示
すブロック図である。
【図5】本発明による連続音声認識装置の一実施例を示
すブロック図である。
【図6】本発明によるワードスポッティング装置の一実
施例を示すブロック図である。
【図7】従来の音声適応化装置の一例を示すブロック図
である。
【符号の説明】
1,111 分析部 2,112 予備マッチング部 3 語彙非依存標準パタン 4 適応化部 114 平均ベクトル算出部 115 補正部 116 標準パタン 81,91,101 音声適応化装置 82 単語認識部 92 連続音声認識部 102 ワードスポッティング部
フロントページの続き (56)参考文献 特開 平9−160584(JP,A) 特開 平5−40496(JP,A) 特開 平4−293099(JP,A) 特開 平4−267300(JP,A) 特開 平2−220099(JP,A) 特開 平1−102599(JP,A) 特開 平6−27989(JP,A) 特開 平7−319493(JP,A) 電子情報通信学論文誌 Vol.J77 −A No.2,Feburary 1994,「全音素エルゴティックHMMを 用いた教師なし話者適応」p.112−119 (平成6年2月25日発行) 電子情報通信学会技術研究報告[音声 ]Vol.95,No.431,SP95− 100,「雑音環境の変動を考慮した話者 適応化」p.45−52(1995年12月15日発 行) 電子情報通信学会技術研究報告[音声 ]Vol.94,No.19,SP94−19, 「音声認識のための高速環境適応」p. 37−44(1994年6月16日発行) 日本音響学会平成7年度秋季研究会発 表会講演論文集▲I▼ 2−5−14「高 速環境適応におけるコンパクト化の検 討」p.57−58(平成7年3月15日国会 図書館受入) The Journal of th e Acoustical Socie ty of Japan(E),VO L.16,No.5,September 1995,”Rapid Environ ment Adaptation fo r Speech Recogniti on”,p.273−282,(平成7年9月 4日特許庁資料館受入) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 521 G10L 3/00 531 G10L 3/00 535 JICSTファイル(JOIS)

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、1つ以上のカテゴリを有し、各カテゴリに
    1つ以上の音響単位を有し、音声に現れるどのような音
    響単位の連鎖も受理可能であるような音響単位の接続関
    係を有する語彙非依存標準パタンと、前記分析部から得
    られた入力音声の特徴ベクトルの時系列と前記語彙非依
    存標準パタンとの間の対応付けを行ない、前記入力音声
    の特徴ベクトルと前記語彙非依存標準パタンのカテゴリ
    毎の対応付け部分から入力音声および語彙非依存標準パ
    タンのカテゴリ毎の平均ベクトルを求める予備マッチン
    グ部と、前記予備マッチング部が算出したカテゴリ毎の
    平均ベクトルを用いて前記入力音声の特徴ベクトルの時
    系列もしくは前記語彙非依存標準パタンのどちらか一方
    または両方に対して補正を行なう適応化部とで構成さ
    れ、前記語彙非依存標準パタンの音響単位がベクトル量
    子化を行なった後の各セントロイド又はHMMの分布で
    あることを特徴とする音声適応化装置。
  2. 【請求項2】前記語彙非依存標準パタンのカテゴリが1
    つ以上の雑音カテゴリと1つ以上の音声カテゴリ(音声
    をS、雑音をNで表す)であって、前記適応化部は、前
    記入力音声の特徴ベクトルの時系列もしくは前記語彙非
    依存標準パタンのどちらか一方の雑音部分を他方の雑音
    部分の平均ベクトルNiで置換し、どちらか一方の音声
    部分から其方の雑音部分の平均ベクトルNtを減じた後
    に(Si−Ni)/(St−Nt)を乗じ(/はベクト
    ルのチャンネル毎の除算、Siは他方の音声部分の平均
    ベクトル、Stは其方の音声部分の平均ベクトル)、さ
    らにNiを加算することを特徴とする請求項1記載の音
    声適応化装置。
  3. 【請求項3】前記適応化部は、カテゴリ毎の平均ベクト
    ルの差を用いて前記入力音声の特徴ベクトルの時系列も
    しくは前記語彙非依存標準パタンのどちらか一方または
    両方に対して補正を行なうことを特徴とする請求項1記
    載の音声適応化装置。
  4. 【請求項4】前記語彙非依存標準パタンが認識用または
    ワードスポッティング用標準パタンの音響単位を用いて
    作成されたことを特徴とする請求項1,2又は3記載の
    音声適応化装置。
  5. 【請求項5】請求項4記載の音声適応化装置と、前記音
    声適応化装置が適応化し た結果を用いて単語認識を行な
    う単語認識部とを備えた単語音声認識装置。
  6. 【請求項6】請求項4記載の音声適応化装置と、前記音
    声適応化装置が適応化した結果を用いて連続音声認識を
    行なう連続音声認識部とを備えた連続音声認識装置。
  7. 【請求項7】請求項4記載の音声適応化装置と、前記音
    声適応化装置が適応化した結果を用いてワードスポッテ
    ィングを行なうワードスポッティング部とを備えたワー
    ドスポッティング装置。
JP7011042A 1995-01-26 1995-01-26 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 Expired - Fee Related JP3008799B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP7011042A JP3008799B2 (ja) 1995-01-26 1995-01-26 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
DE69609531T DE69609531T2 (de) 1995-01-26 1996-01-25 Sprachanpassungsgerät
EP96101048A EP0724251B1 (en) 1995-01-26 1996-01-25 Speech adaptation device
US08/592,174 US5819223A (en) 1995-01-26 1996-01-26 Speech adaptation device suitable for speech recognition device and word spotting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7011042A JP3008799B2 (ja) 1995-01-26 1995-01-26 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置

Publications (2)

Publication Number Publication Date
JPH08202385A JPH08202385A (ja) 1996-08-09
JP3008799B2 true JP3008799B2 (ja) 2000-02-14

Family

ID=11767002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7011042A Expired - Fee Related JP3008799B2 (ja) 1995-01-26 1995-01-26 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置

Country Status (4)

Country Link
US (1) US5819223A (ja)
EP (1) EP0724251B1 (ja)
JP (1) JP3008799B2 (ja)
DE (1) DE69609531T2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3001037B2 (ja) * 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
JPH1063293A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
US6073095A (en) * 1997-10-15 2000-06-06 International Business Machines Corporation Fast vocabulary independent method and apparatus for spotting words in speech
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
ES2208210T3 (es) * 2000-12-18 2004-06-16 Siemens Aktiengesellschaft Procedimiento y disposicion para el reconocimiento de voz para un aparato pequeño.
US6917918B2 (en) * 2000-12-22 2005-07-12 Microsoft Corporation Method and system for frame alignment and unsupervised adaptation of acoustic models
JP4858663B2 (ja) * 2001-06-08 2012-01-18 日本電気株式会社 音声認識方法及び音声認識装置
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US8170873B1 (en) * 2003-07-23 2012-05-01 Nexidia Inc. Comparing events in word spotting
US20050038647A1 (en) * 2003-08-11 2005-02-17 Aurilab, Llc Program product, method and system for detecting reduced speech
KR20080107376A (ko) * 2006-02-14 2008-12-10 인텔렉츄얼 벤처스 펀드 21 엘엘씨 화자 독립 음성 인식을 구비한 통신 장치
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
US7880639B2 (en) * 2006-09-06 2011-02-01 Lutron Electronics Co., Inc. Method of establishing communication with wireless control devices
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
GB2544070B (en) * 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
KR20200007496A (ko) * 2018-07-13 2020-01-22 삼성전자주식회사 개인화 ASR(automatic speech recognition) 모델을 생성하는 전자 장치 및 이를 동작하는 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
WO1995009416A1 (en) * 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
The Journal of the Acoustical Society of Japan(E),VOL.16,No.5,September 1995,"Rapid Environment Adaptation for Speech Recognition",p.273−282,(平成7年9月4日特許庁資料館受入)
日本音響学会平成7年度秋季研究会発表会講演論文集▲I▼ 2−5−14「高速環境適応におけるコンパクト化の検討」p.57−58(平成7年3月15日国会図書館受入)
電子情報通信学会技術研究報告[音声]Vol.94,No.19,SP94−19,「音声認識のための高速環境適応」p.37−44(1994年6月16日発行)
電子情報通信学会技術研究報告[音声]Vol.95,No.431,SP95−100,「雑音環境の変動を考慮した話者適応化」p.45−52(1995年12月15日発行)
電子情報通信学論文誌 Vol.J77−A No.2,Feburary 1994,「全音素エルゴティックHMMを用いた教師なし話者適応」p.112−119(平成6年2月25日発行)

Also Published As

Publication number Publication date
DE69609531D1 (de) 2000-09-07
EP0724251B1 (en) 2000-08-02
US5819223A (en) 1998-10-06
JPH08202385A (ja) 1996-08-09
EP0724251A1 (en) 1996-07-31
DE69609531T2 (de) 2000-12-21

Similar Documents

Publication Publication Date Title
JP3008799B2 (ja) 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US7684988B2 (en) Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
EP0109190B1 (en) Monosyllable recognition apparatus
JP3001037B2 (ja) 音声認識装置
US20120109630A1 (en) Text-to-speech method and system, computer program product therefor
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US20030149558A1 (en) Method and device for determination of prosodic markers
EP0239394A1 (en) Speech synthesis system
JP2000148180A (ja) 文脈に依存する隠れマルコフ・モデルの類似の語に対する文脈の共有
EP1074019B1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
JP3535292B2 (ja) 音声認識システム
JP2004139033A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JPH10254473A (ja) 音声変換方法及び音声変換装置
Ferreiros et al. Improving continuous speech recognition in Spanish by phone-class semicontinuous HMMs with pausing and multiple pronunciations
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
JP2912513B2 (ja) ヒドン・マルコフ・モデルの学習方法
JP2976795B2 (ja) 話者適応化方式
Mitrovski et al. Towards a System for Automatic Media Transcription in Macedonian
Thalengala et al. Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database.
JPH09160586A (ja) ヒドン・マルコフ・モデルの学習方法
Chen et al. A new dynamic HMM model for speech recognition
JP3091623B2 (ja) ヒドン・マルコフ・モデルの学習方法
JPH0713588A (ja) ヒドン・マルコフ・モデルの学習方法
JPH08328582A (ja) ヒドン・マルコフ・モデルの学習方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991102

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071203

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081203

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101203

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees