JP3008799B2

JP3008799B2 - 音声適応化装置，単語音声認識装置，連続音声認識装置およびワードスポッティング装置

Info

Publication number: JP3008799B2
Application number: JP7011042A
Authority: JP
Inventors: 啓三郎 ▲高▼木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-01-26
Filing date: 1995-01-26
Publication date: 2000-02-14
Anticipated expiration: 2015-02-14
Also published as: DE69609531D1; EP0724251B1; US5819223A; JPH08202385A; EP0724251A1; DE69609531T2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置およびワー
ドスポッティング装置に関し、特に入力音声と標準パタ
ンとの違いを適合化させ性能を向上する技術に関するも
のである。

【０００２】

【従来の技術】音声の認識を行なう際に、入力音声と標
準パタン音声の性質とが異なることにより音声の認識率
が低下することが知られている。これらの性質の異なり
のうち、特に音声の認識率低下を招く大きな要因として
は、話者の発声環境によるものと話者自身の音声による
ものの２つの要因に大別される。また、環境の要因はさ
らに背景雑音のように発声者の音声と同時に混入しスペ
クトル上で加法的に作用する付加雑音とマイクロホンや
電話回線の伝達特性などのようにスペクトルそのものを
歪ませ、スペクトル上で乗法的に作用する回線歪みの２
つの要因に分けられる。

【０００３】従来、これらの異なりに対処するための種
々の適応化手法が存在する。例えば、環境による付加雑
音、回線歪みの２つの要因に対処し、環境による音声の
認識率の低下を防止することを目的とした適応化手法が
存在している。例えば、高木、服部、渡辺“スペクトル
写像による環境適応機能を有する音声認識”、音響学会
春季講演論文集、２−Ｐ−８，ｐｐ．１７３−１７４
（１９９４．３）（以下引用文献［１］とする）に示す
音声認識装置に用いられる音声適応化装置は例えば図７
に示すような構成となる。以下、引用文献［１］の手法
について詳細に説明する。付加雑音および伝送歪みによ
って変形を受けた入力音声は、分析部１１１にて特徴ベ
クトルの時系列に変換される。標準パタン１１３は、予
め学習用音声を分析部１１１と同様の方法で分析したも
のを学習し、認識対象単語毎の時系列情報を保持してあ
り、各単語標準パタンには予め音声区間、雑音区間の別
を示すラベルが付与されている。予備マッチング部１１
２は入力音声の特徴ベクトルの時系列と標準パタンの各
単語標準パタンの時系列との間のマッチングを行ない、
第１位の単語標準パタンを選出し、さらに入力音声とそ
の単語標準パタンとの間の時間軸に関する対応付けを求
める。平均ベクトル算出部１１４は、予備マッチング部
１１２によって得られた第１位の単語標準パタンと入力
音声の特徴ベクトルとの間の対応付けを元に、それぞれ
の雑音区間、音声区間の平均ベクトルを算出する。ここ
で、入力音声の音声区間および雑音区間の平均ベクトル
をそれぞれＳv ，Ｎv とし、単語標準パタンの音声区間
および雑音区間の平均ベクトルをそれぞれＳw ，Ｎw と
する。補正部１１５は平均ベクトル算出部１１４で求め
られた４つの平均ベクトルを用い、

【０００４】

【数１】

【０００５】で標準パタンの適応化を行なう。ただし、
Ｗ（ｔ）は適応化前の標準パタン（ｔは全標準パタンの
インデクス）、

【０００６】

【外１】

【０００７】は適応化後の標準パタンとする。このよう
な適応化を行なうことにより標準パタンと入力音声との
間の環境の差異が無くなり、入力環境が変化した場合で
も安定で高い性能を有する音声適応化装置を提供するこ
とが可能である。

【０００８】

【発明が解決しようとする課題】しかしながら、従来の
音声適応化装置においては、標準パタン１１３が単語標
準パタンであったため、入力音声は事前に用意された単
語のいずれかでなければならないという問題点があっ
た。すなわち、入力音声として事前に用意された単語以
外のものが入力された場合に適応化後の性能が著しく低
下するという問題点があった。

【０００９】また、連続音声認識に音声適応化装置を組
み込む場合には、入力音声が連続音声であるため、標準
パタンは単語標準パタンを用いて連続音声が受理可能な
構成が必要となるため、これを用いた予備マッチングの
計算量およびメモリ量が膨大となり、容易に実現出来な
いという問題点があった。また、連続音声などの自然な
発声には言い淀み、繰り返し、不要語など、事前に予測
不可能な音声が混在することが多く、語彙を事前に定め
るような従来の音声適応化装置では、予め定義された語
彙以外の音声が入力された場合には適応化の性能が著し
く低下し、ひいては連続音声の認識性能が低下するとい
う問題点を有している。

【００１０】さらに、ワードスポッティングに音声適応
化装置を組み込む場合は、入力音声が語彙に関して殆ど
事前に予測不可能であり、適応化用の単語標準パタンを
事前に用意することが出来ないという問題点があった。

【００１１】本発明は上述の問題を解決するものであ
り、その目的は、認識時の入力音声の発声内容が未知で
あっても、高精度な適応化を行なうことが可能な音声適
応化装置を提供することにある。

【００１２】

【課題を解決するための手段】本発明による第１の音声
適応化装置は、入力音声を特徴ベクトルの時系列に変換
する分析部と、１つ以上のカテゴリを有し、各カテゴリ
に１つ以上の音響単位を有し、音声に現れるどのような
音響単位の連鎖も受理可能であるような音響単位の接続
関係を有する語彙非依存標準パタンと、分析部から得ら
れた入力音声の特徴ベクトルの時系列と前記語彙非依存
標準パタンとの間の対応付けを行ない、入力音声の特徴
ベクトルと前記語彙非依存標準パタンのカテゴリ毎の対
応付け部分から入力音声および語彙非依存標準パタンの
カテゴリ毎の平均ベクトルを求める予備マッチング部
と、予備マッチング部が算出したカテゴリ毎の平均ベク
トルを用いて入力音声の特徴ベクトルの時系列もしくは
前記語彙非依存標準パタンのどちらか一方または両方に
対して補正を行なう適応化部とを有する。

【００１３】本発明による第２の発明の音声適応化装置
は、本発明の第１の音声適応化装置の語彙非依存標準パ
タンのカテゴリが１つ以上の雑音カテゴリと１つ以上の
音声カテゴリ（音声をＳ、雑音をＮで表す）であって、
適応化部は、前記入力音声の特徴ベクトルの時系列もし
くは語彙非依存標準パタンのどちらか一方の雑音部分を
他方の雑音部分の平均ベクトルＮｉで置換し、どちらか
一方の音声部分から其方の雑音部分の平均ベクトルＮｔ
を減じた後に（Ｓｉ−Ｎｉ）／（Ｓｔ−Ｎｔ）を乗じ
（／はベクトルのチャンネル毎の除算、Ｓｉは他方の音
声部分の平均ベクトル、Ｓｔは其方の音声部分の平均ベ
クトル）、さらにＮｉを加算することを特徴とする。

【００１４】本発明による第３の音声適応化装置は、本
発明の第１の音声適応化装置の適応化部は、カテゴリ毎
の平均ベクトルの差を用いて入力音声の特徴ベクトルの
時系列もしくは語彙非依存標準パタンのどちらか一方ま
たは両方に対して補正を行なうことを特徴とする。

【００１５】本発明による第４の音声適応化装置は、本
発明の第１または第２または第３の音声適応化装置の語
彙非依存標準パタンの音響単位が音声に出現する子音
（Ｃ）と母音（Ｖ）と雑音（Ｎ）を基本とするものであ
るか、またはこれらの２つ以上の連鎖（例えばＣＶ、Ｖ
Ｃ、ＣＶＣ、ＶＮなど）を基本とする。

【００１６】本発明による第５の音声適応化装置は、本
発明の第４の音声適応化装置の語彙非依存標準パタンの
音響単位がＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏ
ｄｅｌ），学習用音声の時系列特徴ベクトルの一部又は
ベクトル量子化を行なった後の各セントロイドを用いて
作成されたことを特徴とする。

【００１７】本発明による第６の音声適応化装置（請求
項１、２、３に対応する。）は、本発明の第１または第
２または第３の音声適応化装置の語彙非依存標準パタン
の音響単位がベクトル量子化を行なった後の各セントロ
イド又はＨＭＭの分布であることを特徴とする。

【００１８】本発明の第７の音声適応化装置（請求項４
に対応する。）は、本発明の第６の音声適応化装置の語
彙非依存標準パタンが認識用またはワードスポッティン
グ用標準パタンの音響単位を用いて作成されたことを特
徴とする。

【００１９】本発明の単語音声認識装置（請求項５に対
応する。）は、本発明による第７の音声適応化装置と、
音声適応化装置が適応化した結果を用いて単語認識を行
なう単語認識部とを有する。

【００２０】本発明による連続音声認識装置（請求項６
に対応する。）は、本発明による第７の音声適応化装置
と、音声適応化装置が適応化した結果を用いて連続音声
認識を行なう連続音声認識部とを有する。

【００２１】本発明によるワードスポッティング装置
（請求項７に対応する。）は、本発明による第７の音声
適応化装置と、音声適応化装置が適応化した結果を用い
てワードスポッティングを行なうワードスポッティング
部とを有する。

【００２２】

【作用】本発明は、認識時の入力音声を用いて、入力音
声と標準パタンとを適合させる方式において、語彙非依
存標準パタンを用いることにより、事前に内容を知るこ
とが出来ない入力音声に対しても高精度な適応化が可能
であり、発声内容に影響されない高性能な適応化装置を
提供できるという効果を得るものであり、従来の音声適
応化装置が有していた欠点を補う効果を得るものであ
る。

【００２３】本発明による第１の適応化装置の作用を図
１、図２を用いて説明する。ここでは、適応化部４とし
て、引用文献［１］に示すものを例に説明するが、この
他話者適応などの適応化技術も同様に用いることが可能
である。雑音を含む入力音声は分析部１にて特徴ベクト
ルの時系列に変換される。一般に特徴ベクトルとして良
く用いられているものは、例えば古井：“ディジタル音
声処理”、東海大学出版、ｐｐ．１５４−１６０（１９
８５）（以下引用文献［２］とする）に述べられている
種々のものが知られているが、ここではＬＰＣ分析、Ｆ
ＦＴ分析などによって得られるスペクトルを用いる場合
について述べることとし、その導出法については述べな
い。得られたスペクトルの時系列をＸ（ｔ）（ｔは離散
的な時刻）で表す。なお、特徴ベクトルとしてケプスト
ラムを用いる場合においても、スペクトルとケプストラ
ムとの間は互いに可逆であることが自明であるため、こ
こではスペクトルを使った場合のみ説明する。入力音声
は一般に音声の始終端を正確に切り出すことは困難であ
り、始端の子音が欠落する場合も起こり得るので、通常
は切り出した始終端より少し長めの音声を分析すること
で音声の欠落を防止している。語彙非依存標準パタン３
には予め標準話者音声を分析部１と同様の方法を用いて
分析したものを例えば、図２に示すように音声部分の音
響単位および雑音部分の音響単位の２つのカテゴリに分
類して、例えば、２状態のＨＭＭ（ＨｉｄｄｅｎＭａ
ｒｋｏｖＭｏｄｅｌ）として登録してある。つまり、
語彙非依存標準パタン３を学習した音声は語彙を規定す
る音韻の組み合わせに関しては有限個であるが、ある程
度十分な量の音声で学習すれば、各音韻（例えば音節）
単独で見た場合には殆どのものが出現していることにな
る。したがって、標準パタンの音響単位として単語など
の大きな単位を用いるのではなく、それより小さな（例
えば音節）単位を用いて構成し、それらの全ての遷移が
受理可能なように接続すれば、対象とする言語の全ての
音声が受理可能な標準パタンを構成することが可能であ
る。予備マッチング部２は入力音声の特徴ベクトルの時
系列Ｘ（ｔ）と語彙非依存標準パタン３との間の対応付
けを行ない入力音声が語彙非依存標準パタン３の音声と
雑音のどちらに属するかを決定し、同時に音声部分、雑
音部分の入力音声および語彙非依存標準パタン３の平均
ベクトルをそれぞれ出力する。入力音声の音声および雑
音の平均ベクトルをそれぞれＳ_v，Ｎ_vとし、語彙非依
存標準パタン３の音声および雑音の平均ベクトルをそれ
ぞれＳ_w，Ｎ_wとする。適応化部４はこの４つの平均ベ
クトルを用い、

【００２４】

【数２】

【００２５】で標準パタンの適応化を行なう。ただし、
Ｗ（ｔ）は適応化前の標準パタン（ｔは全標準パタンの
インデクス）、

【００２６】

【外２】

【００２７】は適応化後の標準パタンとする。ここでは
標準パタンを入力音声に適応化する方式のみについて説
明したが、逆に入力音声を標準パタンに適応化すること
も、また両者を互いに適応化することももちろん可能で
ある。

【００２８】すなわち、本発明によれば、適応化のため
の音声は語彙に関して未知であっても適応化が行なえる
ため、入力音声の発声内容に影響されない高性能な音声
適応化装置を提供できるという効果を得、従来の音声適
応化装置が有していた欠点を補う効果を有する。

【００２９】

【実施例】以下、図面を参照しながら本発明の一実施例
について具体的に説明する。

【００３０】図１は本発明による第１〜第７の音声適応
化装置を示す一実施例のブロック図である。

【００３１】本発明による第１の音声適応化装置は、入
力音声を特徴ベクトルの時系列に変換する分析部１と、
１つ以上のカテゴリを有し、各カテゴリに１つ以上の音
響単位を有し、音声に現れるどのような音響単位の連鎖
も受理可能であるような音響単位の接続関係を有する語
彙非依存標準パタン３と、分析部１から得られた入力音
声の特徴ベクトルの時系列と語彙非依存標準パタン３と
の間の対応付けを行ない、入力音声の特徴ベクトルと語
彙非依存標準パタン３のカテゴリ毎の対応付け部分から
入力音声および語彙非依存標準パタン３のカテゴリ毎の
平均ベクトルを求める予備マッチング部２と、予備マッ
チング部２が算出したカテゴリ毎の平均ベクトルを用い
て入力音声の特徴ベクトルの時系列もしくは語彙非依存
標準パタン３のどちらか一方または両方に対して補正を
行なう適応化部４とを有している。

【００３２】雑音を含む入力音声は分析部１にて予備マ
ッチングのための特徴ベクトルの時系列に変換される。
一般に特徴ベクトルとして良く用いられているものは、
パワー情報、パワー情報の変化量、ケプストラム、ケプ
ストラムの線形回帰係数などが考えられ、これらを組み
合わせたものを特徴ベクトルとすることも可能である。
あるいはまた、スペクトルそのものを用いたり、対数化
スペクトルを用いることも可能である。入力音声には通
常発声の前後に音声のない、周囲雑音だけが含まれる部
分が存在する。語彙非依存標準パタン３は音声に現れる
どのような音響単位の連鎖も受理可能であるような音響
単位の接続関係を持たせることにより語彙に関して依存
しないものとなっている。この標準パタンの作成の方法
は例えば引用文献［２］のｐｐ．１６２−１７０に述べ
られているようにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖ
Ｍｏｄｅｌ）を用いたものであっても、またベクトル
量子化を行なったコードブックであっても音声の特徴ベ
クトルであっても良い。あらゆる語彙を受け付けること
を可能とするためには、たとえば、学習音声または学習
結果を部分的に切り出した音響単位同士の全ての連結関
係をもつように構成することによって実現される。例え
ば、これを実現する一つの方法としては、日本語を対象
とした場合では、／あ／、／い／、／う／、・・・／ん
／などの各音節に相当する音響単位間の全ての遷移を許
し、音節のあらゆる時系列が受理可能なように接続する
ことにより実現される。この音響単位としては、種々の
ものが考えられるが、単語と同等かそれ未満の長さのも
のを用いるのが好適である。また、例えば、日本語では
現れないような音節の連鎖（例えば、／んっ／）などの
連結を行わないように構成することも可能である。予備
マッチング部２は、このようにして作成された語彙非依
存標準パタン３と入力音声の特徴ベクトルの時系列との
間の対応付けを行なう。この対応付けは、時間軸正規化
マッチングとしてＤＰマッチングあるいはＨＭＭ（Ｈｉ
ｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などの方法が挙
げられる。さらに、語彙非依存標準パタン３の各音響単
位が時間軸方向の非線形伸縮機能を持たない（音響単位
が必ず入力の固定長フレームと対応する）場合には、時
間軸正規化マッチングを用いなくても良く、単純に各時
刻における尤度最大の音響単位を選択するだけの処理で
実現可能である。この様にして求められた対応付け情報
を元にして、各カテゴリ毎の平均値が入力および標準パ
タンの双方に対して求められる。適応化部４は予備マッ
チング部２にて得られた各カテゴリ毎の平均値を用い
て、入力音声または語彙非依存標準パタン３のどちらか
一方、あるいは両方に対して適応化を行ない、その結果
を出力する。

【００３３】図２は本発明による第２の音声適応化装置
における語彙非依存標準パタンの一例を示す図である。
この音声適応化装置は、語彙非依存標準パタン３のカテ
ゴリが１つ以上の雑音カテゴリと１つ以上の音声カテゴ
リ（音声をＳ、雑音をＮで表す）であって、入力音声の
特徴ベクトルの時系列もしくは語彙非依存標準パタン３
のどちらか一方の雑音部分を他方の雑音部分の平均ベク
トルＮｉで置換し、どちらか一方の音声部分から其方の
雑音部分の平均ベクトルＮｔを減じた後に（Ｓｉ−Ｎ
ｉ）（Ｓｔ−Ｎｔ）を乗じ（／はベクトルのチャンネル
毎の除算、Ｓｉは他方の音声部分の平均ベクトル、Ｓｔ
は其方の音声部分の平均ベクトル）、さらにＮｉを加算
する適応化部４を有している。

【００３４】語彙非依存標準パタン３は、学習用音声か
ら学習された音響単位を音声部分および雑音部分に分
け、音声および雑音の２つのカテゴリに対応付ける。２
つのカテゴリ相互並びにカテゴリ内の遷移は自由に行な
うことが可能である。音声および雑音には複数の音響単
位が存在していても良く、予備マッチング部２において
行なわれる対応付けは、各時刻における尤度最大の音響
単位を選択し、それが音声カテゴリであるか雑音である
かにより平均値をカテゴリ毎に積算する。このような構
成とすることにより、使用する言語に現れるいかなる発
声内容に対しても受理することが可能である。適応化部
４は、例えば引用文献［１］にあるような適応化を行な
う。入力音声の音声区間および雑音区間の平均ベクトル
をそれぞれＳ_v，Ｎ_vとし、単語標準パタンの音声区間
および雑音区間の平均ベクトルをそれぞれＳ_w，Ｎ_wと
すると、適応化部４は例えば

【００３５】

【数３】

【００３６】で標準パタンの適応化を行なう。ただし、
Ｗ（ｔ）は適応化前の標準パタン（ｔは全標準パタンの
インデクス）、

【００３７】

【外３】

【００３８】は適応化後の標準パタンとする。また標準
パタンのうち雑音カテゴリに属するものは入力の雑音の
平均ベクトルＮ_vで置換する。この例では、標準パタン
に対する適応化を示したが、入力音声に対しても同様の
処理を行なうことも可能である。この適応化手法はスペ
クトル上での適応化であるが、特徴ベクトルがケプスト
ラムであるように場合には、ケプストラムとスペクトル
相互間の変換部を設けることにより容易に実現可能であ
る。この場合、平均ベクトルはケプストラム上で求めて
も良いし、一旦スペクトルに変換した後に求めても良
い。

【００３９】本発明による第３の音声適応化装置は、カ
テゴリ毎の平均ベクトルの差を用いて入力音声の特徴ベ
クトルの時系列もしくは語彙非依存標準パタン３のどち
らか一方または両方に対して補正を行なう適応化部４を
有している。

【００４０】適応化部４としては、カテゴリ毎の平均値
を利用する適応化手法であれば、どの様なものでも実現
可能である。例えば、話者適応などの方式を用いること
も可能である。例えば、篠田、磯、渡辺“音声認識のた
めのスペクトル内挿を用いた話者適応化”、電子情報通
信学会論文誌、Ａ．Ｖｏｌ．Ｊ７７−Ａ、Ｎｏ．２，ｐ
ｐ，１２０−１２７（１９９４年２月）（以下引用文献
［３］とする）に示す話者適応を用いた場合は以下の様
になる。入力のカテゴリｊに対する平均値

【００４１】

【外４】

【００４２】と、標準パタンのカテゴリｊに対する平均
値μ_jとを用いてそのカテゴリ毎の適応化ベクトルΔ_j
を以下のように求める。

【００４３】

【数４】

【００４４】また、入力音声中にカテゴリが存在しない
標準パタンのカテゴリｉに対しては、引用文献［３］に
述べられているように、

【００４５】

【数５】

【００４６】で表されるスペクトル内挿と呼ばれる方法
を用いることも可能となる。ただしｊは入力音声中に音
響カテゴリが存在する標準パタンのカテゴリを表すもの
とする。これらの適応化ベクトルを用いて適応化部４
は、音響カテゴリｉあるいはｊに属するすべての標準パ
タンｋに対して、

【００４７】

【数６】

【００４８】で適応化する。ただし、Δはｋの種類によ
りΔ_iまたはΔ_jのどちらか一方を適宜選択して用いる
ものとする。この例では、適応化ベクトルを用いて標準
パタン４を大きく適応化した場合について述べたが、例
えば適当な係数αを用いて、

【００４９】

【数７】

【００５０】のようにαを用いることで適応化の度合を
制御し、大きく適応化するのを防ぐように構成すること
可能である。この例では、適応化部４は語彙非依存標準
パタン３に対してのみ適応化しているが、入力音声に対
して同等の処理をすることももちろん可能である。

【００５１】また、ケプストラム平均値補正（ＣＭＮ：
ＣｅｐｓｔｒｕｍＭｅａｎＮｏｒｍａｌｉｚａｔｉ
ｏｎ）と呼ばれる方式が存在している。例えば、Ａ．
Ｅ．Ｒｏｓｅｎｂｅｒｇ，ｅｔａｌ．：“Ｃｅｐｓｔ
ｒａｌＣｈａｎｎｅｌＮｏｒｍａｌｉｚａｔｉｏｎ
ＴｅｃｈｎｉｑｕｅｆｏｒＨＭＭ−ＢａｓｅｄＳ
ｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ”，ＩＣＳＬ
Ｐ９４，Ｓ３１．１，ｐｐ．１８３５−１８３８（１９
９４）（以下引用文献［４］とする）に用いられている
音声適応化装置では、カテゴリ数は２（音声および雑
音）であって、特徴ベクトルはケプストラムを用い、入
力音声の音声部分に対してのみ適応化を行なう。もちろ
ん引用文献［４］では語彙非依存標準パタンではなく、
単語標準パタンを用いているが、この適応化手法を本発
明の適応化部４に用いることが可能である。具体的に示
すと、入力音声の音声部分の特徴ベクトル（ケプストラ
ム）をｙ_t、その音声部分の特徴ベクトルの平均値を

【００５２】

【外５】

【００５３】、標準パタンの音声部分の平均値を

【００５４】

【外６】

【００５５】とすると、

【００５６】

【数８】

【００５７】により適応化を行なう。すなわち、入力音
声をそのカテゴリの平均ベクトルの差を用いて置換す
る。

【００５８】図３は本発明による第４の音声適応化装置
における語彙非依存標準パタンの一例を示す図である。
この音声適応化装置は、本発明の第１または第２または
第３の音声適応化装置の語彙非依存標準パタン３の音響
単位が音声に出現する子音（Ｃ）と母音（Ｖ）と雑音
（Ｎ）を基本とするものであるか、またはこれらの２つ
以上の連鎖（例えばＣＶ、ＶＣ、ＣＶＣ、ＶＮなど）を
基本とする語彙非依存標準パタン３を有する。

【００５９】図３は例えば、３つのカテゴリを有し、各
カテゴリの音響単位が音節である場合を示している。こ
こでは日本語の場合を示したが、これ以外の言語でも同
様に構成することが可能である。各カテゴリ間およびカ
テゴリ内部では自由に遷移可能であり、したがって出現
する全ての音節が３つのカテゴリのいずれかに属するよ
うに構成すれば、言語内のあらゆる発声を受理可能とな
る。ここでは、音響単位が音節である場合を示したが、
音節が２つ以上連鎖した単位を用いることも可能であ
り、また音節に類似した単位であればどのようなもので
も用いることが可能である。このような構成を用いる利
点は、音響単位に予め言語的な情報が付随しているた
め、例えば／んっ／のように、その言語であり得ない様
な接続を行なわないような構成が可能であり、予備マッ
チングの精度が向上し、ひいては高い適応化性能を有す
る。さらに、音響単位をワードスポッティングまたは音
声認識用の辞書と共通に用いることにより適応化結果が
直接ワードスポッティングまたは認識に反映され、より
高性能な装置の提供が可能となる。

【００６０】本発明による第５の音声適応化装置は、本
発明の第４の音声適応化装置における語彙非依存標準パ
タンの音響単位が例えばＨＭＭを用いて作成されてい
る。ＨＭＭは通常１以上の状態を有し、例えば図３に示
す音響単位の例では、各音響単位が独立のＨＭＭで構成
されている。

【００６１】本発明による第５の音声適応化装置は、本
発明の第４の音声適応化装置における語彙非依存標準パ
タンの音響単位が例えば学習用音声の時系列特徴ベクト
ルの一部を用いて作成されている。例えば、学習音声が
／東京／という発声であった場合には、これを／ｔｏ／
／ｕ／／ｋｙｏ／／ｕ／の様に音節毎にセグメンテーシ
ョンして切り離し、この切り離した各音節の特徴ベクト
ルを音響単位として構成する。セグメンテーションは視
察により行なうことも可能であるし、また既に学習した
ＨＭＭを用いて自動で行なうことも可能である。

【００６２】本発明による第５の音声適応化装置は、本
発明の第４の音声適応化装置における語彙非依存標準パ
タンの音響単位がベクトル量子化を行なった後の各セン
トロイドを用いて作成されている。ベクトル量子化は音
声の認識、符号化に広く用いられている方式であり、ほ
ぼ無限に点在する音響空間内のベクトルを、近傍毎にま
とめて有限個のベクトルで表現する手法である。このベ
クトル量子化手法については、例えば、中川：“確率モ
デルを用いた音声認識”電子情報通信学会、コロナ社、
ｐｐ．２６−２８（昭和６３）に述べられておりここで
は述べない。例えば、多数の学習音声をベクトル量子化
して作成されたコードブックの連鎖により音節などの単
位で標準パタンを作成することが可能である。このよう
にして得られた音節などの音響単位を用いて語彙非依存
標準パタン３を構成する。

【００６３】本発明による第６の音声適応化装置は、本
発明の第１または第２または第３の音声適応化装置の語
彙非依存標準パタン３の音響単位が例えばＨＭＭの分布
であるような語彙非依存標準パタン３を有している。

【００６４】通常、ＨＭＭは複数の状態の連鎖で構成さ
れており、この状態の連鎖を切り離し、それを音響単位
とすることにより、あらゆる内容の発声が受理可能とな
る構成となっている。この様な構成の利点は、元となる
標準パタンが、音節などのより小さな基本単位に予め分
けて構成されてない場合（例えば単語テンプレート毎に
学習を行なう方式、いわゆるサブワードベースでない方
式）においても、予めセグメンテーションを行なうこと
なしに容易にこの種の音声適応化装置が構成可能であ
る。

【００６５】本発明による第６の音声適応化装置は、本
発明の第１または第２または第３の音声適応化装置の語
彙非依存標準パタン３の音響単位が例えばベクトル量子
化を行なった後の各セントロイドであるような語彙非依
存標準パタン３を有する。

【００６６】元となる標準パタンがベクトル量子化手法
を用いて構成されるような場合には、音響単位として各
クラスタ重心（セントロイド）を用いることが可能であ
る。多数の音声を用いてベクトル量子化を行ない、この
得られたコードブックのセントロイドを音響単位として
用いて語彙非依存標準パタン３を構成することにより、
あらゆる内容の発声が受理可能となる。この様な構成の
利点は、本発明の第６の音声適応化装置が共通に有する
利点に加えて、音響単位が時間軸方向に非線形な伸縮機
能を持たないため、予備マッチングとして単純な方式で
実現可能である点にある。

【００６７】本発明による第６の音声適応化装置は、本
発明の第１または第２または第３の音声適応化装置の語
彙非依存標準パタン３の音響単位が例えばＨＭＭの分布
であるような語彙非依存標準パタン３を有している。

【００６８】通常、ＨＭＭは複数の状態の連鎖で構成さ
れており、各状態は複数の分布を有するいわゆるマルチ
ガウシアンと呼ばれる構成が可能である。これらのＨＭ
Ｍの各状態を個々に切り離し、これを音響単位として語
彙非依存標準パタン３を構成することが可能である。こ
のような構成とすることにより、あらゆる内容の発声が
受理可能である。この様な構成の利点は、本発明の第６
の音声適応化装置が共通に有する利点に加えて、音響単
位が時間軸方向に非線形な伸縮機能を持たないため、予
備マッチングとして単純な方法で実現可能である点にあ
る。

【００６９】本発明による第７の音声適応化装置は、本
発明の第１または第２または第３または第４または第５
の語彙非依存標準パタンが認識用またはワードスポッテ
ィング用標準パタンの音響単位を用いて作成されてい
る。

【００７０】例えば、図３の例を用いて説明する。ワー
ドスポッティングまたは音声認識用の標準パタンは音節
を基本とした音響単位を有しており、例えば／東京／と
いう認識またはワードスポッティング語彙を定める場合
には、／ｔｏ／／ｕ／／ｋｙｏ／／ｕ／のように音響単
位を連結して標準パタンを構成する。一方語彙非依存標
準パタンはこれらの音節の音響単位を単独で用い、しか
も、例えば図３の様に全ての音節間の遷移を受理可能な
ように構成すれば、言語内のあらゆる内容の発声に対し
ても受理可能なように構成することが可能である。

【００７１】図４は本発明の単語音声認識装置の一実施
例のブロック図である。この単語認識装置は、本発明に
よる第７の音声適応化装置８１を有し、その適応化結果
を用いて単語認識を行なう単語認識部８２とを有してい
る。

【００７２】音声適応化装置８１にて適応化された入力
音声および標準パタンは単語認識部８２にて単語認識が
行なわれる。この様な構成とすることにより、音声適応
化装置８１は単語認識部８２の語彙に依存しないため、
たとえ単語認識の語彙にないような発声で適応化を行な
っても、適応化後の性能が低下しない。従来例えば、過
去に入力した音声も利用して適応化を行なうような方式
の場合、過去に一旦認識対象にない音声で適応化を行な
うと、それ以後の音声認識性能が低下する場合があった
が、このような場合においても適応化は高性能に行なわ
れるため、語彙に依存しない安定な適応化機能を有する
単語音声認識装置の提供が可能である。また、例えば、
音声認識装置に語彙以外の音声入力に対しては拒絶を行
なう、いわゆるリジェクションと呼ばれる機能をもつも
のがあり、この場合にも、語彙に依存しないような、本
発明の音声適応化装置を用いることにより高性能なリジ
ェクトが実現される。

【００７３】図５は本発明の連続音声認識装置の一実施
例のブロック図である。この連続音声認識装置は、本発
明による第７の音声適応化装置９１を有し、その適応化
結果を用いて連続音声認識を行なう連続音声認識部９２
とを有している。

【００７４】音声適応化装置９１にて適応化された入力
音声および標準パタンは連続音声認識部９２にて連続音
声認識が行なわれる。一般に連続音声認識には多くの計
算量を必要とする。従来の音声適応化装置では単語標準
パタンを用いていたため、この単語標準パタンを用いて
連続音声を受理可能な構成とし、この標準パタンを用い
て予備マッチングを行なうには、多くの計算量、メモリ
量を必要としていたが、音声適応化部９１は連続音声認
識部９２の語彙に依存せず、より少ない計算量で適応化
を行なう。また、一般に連続音声中には、言い淀み、繰
り返し、不要語など、多くの予測不能な言語現象が発生
するが、従来の単語標準パタンを用いた音声適応化装置
では、これらの発声に対して対処できなかったが、ここ
では、語彙に依存しない高性能な音声適応化装置を用い
ることで、高い認識性能を有する装置の提供が可能であ
る。

【００７５】図６は本発明のワードスポッティング装置
の一実施例のブロック図である。このワードスポッティ
ング装置は、本発明による第７の音声適応化装置１０１
を有し、その適応化結果を用いてワードスポッティング
を行なうワードスポッティング部１０２とを有してい
る。

【００７６】音声適応化装置１０１にて適応化された入
力音声および標準パタンはワードスポッティング部１０
２にてワードスポッティングが行なわれる。一般に、連
続会話中から事前に定めた単語が存在するかどうかの判
定を行なうワードスポッティングにおいては入力音声は
全て未知であるため、従来の単語標準パタンを用いた音
声適応化装置では、語彙が未知であるため単語標準パタ
ンを事前に用意することが不可能であり、この様な装置
を提供することが出来なかった。しかし、本発明の音声
適応化装置を用いることにより、語彙が未知であっても
良く、高性能なワードスポッティング装置の提供がはじ
めて可能となった。

【００７７】

【発明の効果】以上から明らかなように、本発明の第１
の音声適応化装置によれば、入力音声の語彙に関して依
存しないため、どの様な音声に対しても安定な適応化が
実現できるという効果を有する。

【００７８】本発明の第２および第３の音声適応化装置
によれば、この種の音声適応化装置が有していた効果に
加えて入力音声の語彙に関して依存しない高性能な音声
適応化装置を提供できるという効果を得る。

【００７９】本発明の第４および第５の音声適応化装置
によれば、入力音声の語彙に関して依存しない高性能な
音声適応化装置を提供できるばかりでなく、対象とする
言語であり得ない様な遷移を制限することが可能であ
り、より高性能な音声適応化装置を提供できるという効
果を有する。

【００８０】本発明の第６の音声適応化装置によれば、
入力音声の語彙に関して依存しない高性能な音声適応化
装置を提供できるばかりでなく、音節などのより小さな
基本単位に予め分けて構成されていない場合においても
予めセグメンテーションを行なうことなしに容易にこの
種の音声適応化装置を提供出来るという効果を有する。

【００８１】本発明の第６の音声適応化装置をベクトル
量子化した後の各セントロイドまたはＨＭＭの分布を用
いて構成すれば、本発明の第６の音声適応化装置が有す
る効果に加えて、音響単位が時間軸方向の非線形伸縮機
能を持たないので、より簡便なマッチング手法で実現可
能であり、ひいてはより廉価な装置の提供が可能である
という効果を有する。

【００８２】本発明の第７の音声適応化装置によれば、
音響単位をワードスポッティングまたは音声認識用の標
準パタンと共通に用いることにより適応化結果が直接ワ
ードスポッティングまたは認識に反映され、より高性能
な装置の提供が可能となるという効果を有する。

【００８３】本発明の単語音声認識装置によれば、語彙
に依存しない安定な適応化機能を有する単語音声認識装
置の提供が可能であるという効果を有する。また、リジ
ェクション機能をもつ単語音声認識装置の場合にも、適
応化は語彙に依存しないため、リジェクトされるべき単
語で適応化を行なっても性能は低下せず、より高性能な
リジェクトが実現される。

【００８４】本発明の連続音声認識装置によれば、適応
化の計算量、メモリ量が大幅に削減されるため、より廉
価な装置の提供が可能であるばかりでなく、語彙に依存
しない高性能な音声適応化装置を用いているので、言い
淀み、繰り返し、不要語など、多くの予測不能な言語現
象が起こった場合においても、安定で高性能な連続音声
認識装置が提供可能であるという効果を有する。

【００８５】本発明のワードスポッティング装置によれ
ば、従来この種の適応化装置を用いて構成することが出
来なかったが、語彙に依存しない音声適応化装置を用い
ることによりはじめて可能となったという効果を有す
る。

【図面の簡単な説明】

【図１】本発明による音声適応化装置の一実施例を示す
ブロック図である。

【図２】本発明による音声適応化装置の語彙非依存標準
パタンの一例を示す図である。

【図３】本発明による音声適応化装置の語彙非依存標準
パタンの一例を示す図である。

【図４】本発明による単語音声認識装置の一実施例を示
すブロック図である。

【図５】本発明による連続音声認識装置の一実施例を示
すブロック図である。

【図６】本発明によるワードスポッティング装置の一実
施例を示すブロック図である。

【図７】従来の音声適応化装置の一例を示すブロック図
である。

【符号の説明】

１，１１１分析部２，１１２予備マッチング部３語彙非依存標準パタン４適応化部１１４平均ベクトル算出部１１５補正部１１６標準パタン８１，９１，１０１音声適応化装置８２単語認識部９２連続音声認識部１０２ワードスポッティング部

フロントページの続き (56)参考文献特開平９−160584（ＪＰ，Ａ) 特開平５−40496（ＪＰ，Ａ) 特開平４−293099（ＪＰ，Ａ) 特開平４−267300（ＪＰ，Ａ) 特開平２−220099（ＪＰ，Ａ) 特開平１−102599（ＪＰ，Ａ) 特開平６−27989（ＪＰ，Ａ) 特開平７−319493（ＪＰ，Ａ) 電子情報通信学論文誌Ｖｏｌ．Ｊ77 −ＡＮｏ．２，Ｆｅｂｕｒａｒｙ 1994，「全音素エルゴティックＨＭＭを用いた教師なし話者適応」ｐ．112−119 （平成６年２月25日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．95，Ｎｏ．431，ＳＰ95− 100，「雑音環境の変動を考慮した話者適応化」ｐ．45−52（1995年12月15日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．94，Ｎｏ．19，ＳＰ94−19, 「音声認識のための高速環境適応」ｐ. 37−44（1994年６月16日発行) 日本音響学会平成７年度秋季研究会発表会講演論文集▲Ｉ▼ ２−５−14「高速環境適応におけるコンパクト化の検討」ｐ．57−58（平成７年３月15日国会図書館受入) ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＪａｐａｎ（Ｅ），ＶＯＬ．16，Ｎｏ．５，Ｓｅｐｔｅｍｂｅｒ 1995，”ＲａｐｉｄＥｎｖｉｒｏｎｍｅｎｔＡｄａｐｔａｔｉｏｎｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．273−282，（平成７年９月４日特許庁資料館受入) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 521 G10L 3/00 531 G10L 3/00 535 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を特徴ベクトルの時系列に変換す
る分析部と、１つ以上のカテゴリを有し、各カテゴリに
１つ以上の音響単位を有し、音声に現れるどのような音
響単位の連鎖も受理可能であるような音響単位の接続関
係を有する語彙非依存標準パタンと、前記分析部から得
られた入力音声の特徴ベクトルの時系列と前記語彙非依
存標準パタンとの間の対応付けを行ない、前記入力音声
の特徴ベクトルと前記語彙非依存標準パタンのカテゴリ
毎の対応付け部分から入力音声および語彙非依存標準パ
タンのカテゴリ毎の平均ベクトルを求める予備マッチン
グ部と、前記予備マッチング部が算出したカテゴリ毎の
平均ベクトルを用いて前記入力音声の特徴ベクトルの時
系列もしくは前記語彙非依存標準パタンのどちらか一方
または両方に対して補正を行なう適応化部とで構成さ
れ、前記語彙非依存標準パタンの音響単位がベクトル量
子化を行なった後の各セントロイド又はＨＭＭの分布で
あることを特徴とする音声適応化装置。
【請求項２】前記語彙非依存標準パタンのカテゴリが１
つ以上の雑音カテゴリと１つ以上の音声カテゴリ（音声
をＳ、雑音をＮで表す）であって、前記適応化部は、前
記入力音声の特徴ベクトルの時系列もしくは前記語彙非
依存標準パタンのどちらか一方の雑音部分を他方の雑音
部分の平均ベクトルＮｉで置換し、どちらか一方の音声
部分から其方の雑音部分の平均ベクトルＮｔを減じた後
に（Ｓｉ−Ｎｉ）／（Ｓｔ−Ｎｔ）を乗じ（／はベクト
ルのチャンネル毎の除算、Ｓｉは他方の音声部分の平均
ベクトル、Ｓｔは其方の音声部分の平均ベクトル）、さ
らにＮｉを加算することを特徴とする請求項１記載の音
声適応化装置。
【請求項３】前記適応化部は、カテゴリ毎の平均ベクト
ルの差を用いて前記入力音声の特徴ベクトルの時系列も
しくは前記語彙非依存標準パタンのどちらか一方または
両方に対して補正を行なうことを特徴とする請求項１記
載の音声適応化装置。
【請求項４】前記語彙非依存標準パタンが認識用または
ワードスポッティング用標準パタンの音響単位を用いて
作成されたことを特徴とする請求項１，２又は３記載の
音声適応化装置。
【請求項５】請求項４記載の音声適応化装置と、前記音
声適応化装置が適応化した結果を用いて単語認識を行な
う単語認識部とを備えた単語音声認識装置。
【請求項６】請求項４記載の音声適応化装置と、前記音
声適応化装置が適応化した結果を用いて連続音声認識を
行なう連続音声認識部とを備えた連続音声認識装置。
【請求項７】請求項４記載の音声適応化装置と、前記音
声適応化装置が適応化した結果を用いてワードスポッテ
ィングを行なうワードスポッティング部とを備えたワー
ドスポッティング装置。