JP3803029B2

JP3803029B2 - 音声認識装置

Info

Publication number: JP3803029B2
Application number: JP2000569386A
Authority: JP
Inventors: 誠庄境
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 1998-09-09
Filing date: 1999-09-08
Publication date: 2006-08-02
Anticipated expiration: 2019-09-08
Also published as: BR9913524A; WO2000014723A1; HK1040312A1; EP1126438A1; US20020116192A1; CN1280783C; AU5647899A; RU2223554C2; KR100415217B1; EP1126438B1; MXPA01002514A; ID27346A; EP1126438A4; DE69939124D1; CN1323436A; KR20010086402A; US6868382B2

Description

【０００１】
【技術分野】
本発明は、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対し、音声認識が可能な音声認識装置および方法に関するものである。
【０００２】
【背景技術】
特定話者に固有の登録語を認識する技術を一般に特定話者音声認識と呼ぶ。特定話者音声認識においては、特定話者が予め音声認識させたい単語の音声を登録するという作業が発生する。この作業は具体的には、特定話者が予め発声した単語の音声サンプルをある特徴パラメータの系列（テンプレートと呼ぶ）に変換し、その系列を単語のラベルとともにメモリーやハードディスクなどの記憶装置に蓄積する。音声サンプルをある特徴パラメータの系列に変換する方法としては、ケプストラム分析や線形予測分析などが知られており、「音声・音情報のディジタル信号処理」（鹿野清宏、中村哲、伊勢史郎共著、（株）昭晃堂）にも詳述されている。特定話者音声認識においては、記憶装置に蓄積された特徴パラメータの系列と入力された音声から変換された特徴パラメータの系列とを比較し、入力された音声から変換された特徴パラメータの系列に最も類似した特徴パラメータの系列を持つ単語のラベルを認識結果として出力する。
【０００３】
記憶装置に蓄積された特徴パラメータの系列と入力された音声から変換された特徴パラメータの系列とを比較する方法としては、動的計画法(dynamic programming) による時間軸伸縮マッチング(Dynamic Time Warping,ＤＴＷ）が広く用いられており、上記「音声・音情報のディジタル信号処理」にも詳しく述べられている。
【０００４】
一方、不特定話者に共通の固定語を認識する技術を一般に不特定話者音声認識と呼ぶ。不特定話者音声認識においては、不特定話者に共通の固定語の特徴パラメータに関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のようにユーザーが音声認識させたい単語を登録するという作業は発生しない。音声サンプルをある特徴パラメータの系列に変換する方法としては、特定話者音声認識と同様にケプストラム分析や線形予測分析などが知られている。また、不特定話者に共通の固定語の特徴パラメータに関する情報の作成およびその情報と入力された音声から変換された特徴パラメータの系列との比較には、隠れマルコフモデル(Hidden Markov Model，ＨＭＭ）による方法が一般に用いられている。
【０００５】
ＨＭＭによる不特定話者音声認識についても、上記「音声・音情報のディジタル信号処理」に詳しく述べられている。例えば、日本語の場合、音声単位を上記「音声・音情報のディジタル信号処理」の第２章に記載されている音韻のセットとし、各音韻がＨＭＭによりモデル化されているとする。表１に音韻のセットのラベルの一覧を示す。
【０００６】
【表１】

【０００７】
この時、例えば「ＣＤ（シーディー）」は図２Ａのような話者に共通の音韻ラベルのネットワーク（固定語ラベル系列と呼ぶ）でモデル化することができる。
【０００８】
また、例えば「ＭＤ（エムディー）」は図２Ｂのような固定語ラベル系列でモデル化することができる。ＨＭＭによる音韻モデルのデータと固定語ラベル系列を用意すれば、上記「音声・音情報のディジタル信号処理」の第４章に記載されているＶｉｔｅｒｂｉアルゴリズムにより、当業者は不特定話者音声認識装置を構成することができる。
【０００９】
音声認識装置において、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対し、認識が可能であるという機能を提供したいというニーズがある。例えば、カーオーディオ装置においては、安全上の理由から「ＣＤ」、「ＭＤ」などの各機器の制御を音声で行いたいというニーズがある。これらの機器の名前は、不特定多数の話者で共通に設定することができるため、不特定話者音声認識技術で実現することができる。これにより、特定話者音声認識技術で必要な登録の作業を回避することができ、ユーザーインタフェースの面で好ましい。
【００１０】
一方で、例えば、ＣＤチェンジャーに挿入された複数のＣＤを声で選択し再生するというニーズが存在する。この場合、ＣＤチェンジャーに挿入されるＣＤのタイトル名、歌手名などはユーザーにより異なると考えられる。従って、従来の不特定話者音声認識技術ではなく、特定話者音声認識技術の適用が必要となる。すなわち、ユーザーがＣＤチェンジャーに挿入するＣＤのタイトル名、歌手名などを予め声により登録するという作業が必要となる。「ＣＤ」、「ＭＤ」などの各機器の名前とＣＤのタイトル名、歌手名などが混在した語彙に対し、音声認識を行うことが可能であれば、「ＣＤ」、「ＭＤ」などの不特定話者に共通の固定語を認識できるモードとＣＤのタイトル名、歌手名などの特定話者に固有の登録語を認識できるモードを切り替える必要がなく、ユーザーに対してより使いやすい音声認識機能を提供できると考えられる。
【００１１】
これまで、特定話者音声認識には、ＤＴＷによる方法が広く用いられてきた。また、不特定話者音声認識には、ＨＭＭによる方法が広く用いられてきた。上記ニーズを実現する１つの方法として、ＤＴＷによる特定話者音声認識とＨＭＭによる不特定話者音声認識を併用する方法が考えられる。この２つの方法で入力音声のパラメータ系列と記憶装置に記憶された語彙単語のパラメータ系列の情報とを比較する際に用いる尺度は一般に異なっている。従って、ＤＴＷによる特定話者音声認識により最も入力音声に近いと判断された特定話者に固有の登録語とＨＭＭによる不特定話者音声認識により最も入力音声に近いと判断された不特定話者に共通の固定語のいずれかが入力音声により近いのかを判断するのは容易ではない。
【００１２】
ＤＴＷによる特定話者音声認識において、固定語に対し多数の話者の音声を用いて複数のテンプレートを記憶装置に記憶させることにより、不特定話者音声認識を実現することも可能である。これにより、ＤＴＷを用いて上記ニーズを実現することができる。しかしながら、この方法では、各固定語のテンプレートを複数持つことによる記憶装置の容量の増加、複数のテンプレートとのＤＴＷによる照合時間の増加、固定語を変更する際にあらためて多数話者の音声を収集する必要があるなどの不具合がある。
【００１３】
以上を要約すると、たとえば、カーオーディオ装置に音声認識装置を搭載する場合、不特定話者用の音声認識装置は、製造会社にとっては多数のユーザの声を個々に登録する必要がないので好都合である反面、個々のユーザにとっては、認識精度が特定話者の認識精度よりも若干落ちるというデメリットがある。
【００１４】
また、特定話者用の音声認識装置は認識精度において優れるものの、製造会社にとっては、個々のユーザの音声から特徴パラメータを取り出し、音声認識装置に予め記憶させることは至難である。ユーザ自身が自己の音声を登録するにしても、たとえば、多くの単語を登録するには多大の労力を必要とする。
【００１５】
さらに従来の特定話者の音声認識に使用する方法と不特定話者の音声認識に使用する方法は種類内容が異なるので両方の音声認識方法を１つの装置に組み込みすると装置が大型化してしまうという問題がある。
【００１６】
【発明の開示】
本発明の目的は、このような点を考慮して、不特定話者の音声を認識する音声認識方法を使用した場合でも、特定話者の発声する登録語を精度よく認識することができる音声認識装置および方法を提供することにある。
【００１７】
本発明によれば、入力音声を、単語より短い長さの音声単位のモデルの情報を用いて、単語認識を行う音声認識装置であって、不特定話者の入力音声の単語認識のために共通使用する固定語に対する、前記音声単位のラベル系列を蓄積しておく語彙ラベルネットワーク蓄積手段と、特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成する登録語ラベル系列抽出手段と、当該作成された登録語のラベル系列を前記語彙ラベルネットワーク蓄積手段に追加登録する登録手段とを具え、前記音声単位が音韻の隠れマルコフモデルの各状態を分割して生成した音響イベントである音声認識装置が提供される。
【００１８】
本発明によれば、入力音声を、単語より短い長さの音声単位のモデルの情報を用いて、単語認識を行う音声認識装置であって、不特定話者の入力音声の単語認識のために共通使用する固定語に対する、前記音声単位のラベル系列を蓄積しておく語彙ラベルネットワーク蓄積手段と、前記音声単位の接続に関する制約条件を記述したネットワークを用いて、特定話者の登録語の入力音声から、前記音声単位の接続の制約条件を満足する、前記音声単位のラベル系列の中で最も高い確からしさを持つラベル系列を作成する登録語ラベル系列抽出手段と、前記不特定話者の入力音声の単語認識のために共通使用する固定語に対する、音声単位のラベル系列と当該作成された登録語のラベル系列を並列ネットワークの形態で前記語彙ラベルネットワーク蓄積手段に記憶する登録手段とを具え、前記音声単位が音韻の隠れマルコフモデルの各状態を遷移確率と出力確率の値と状態数を変更することなく分割して生成した音響イベントである音声認識装置が提供される。
【００１９】
本発明によれば、音声認識装置は前記固定語を前記語彙ラベルネットワーク蓄積手段に登録する手段をさらに具えてもよい。
【００２０】
本発明によれば、音声認識装置の製造会社では、多数の不特定のユーザを対象にした固定語のラベル系列を音声認識用データとして提供すればよく、ユーザは所望の単語について自己の音声を登録することができる。換言すると、不特定話者方式の音声認識方法に特定話者の音声認識機能を加味することが可能となる。これにより、ユーザおよび製造会社双方に好適な音声認識装置および方法を提供することが可能となる。
【００２１】
【発明を実施するための最良の形態】
本発明は、従来不特定話者音声認識に用いられてきたＨＭＭを用いて、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対し、認識が可能な音声認識装置を提供するものである。ＨＭＭを用いた不特定話者音声認識においては、音声単位（音節、半音節、音韻、音響イベントなど）のモデルデータ、不特定話者に共通の固定語に対応する音声単位のラベル系列および各固定語のラベル系列相互の接続情報を用いて、先述のＶｉｔｅｒｂｉアルゴリズムにより、入力音声に含まれる固定語の認識を行う。
【００２２】
特定話者に固有の登録語に対応する音声単位のラベル系列を何らかの手段で得られれば、そのラベル系列を上記ラベル系列相互の接続情報に付加することにより、先述のＶｉｔｅｒｂｉアルゴリズムを用いて、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対する認識を行うことが可能であると考えられる。
【００２３】
特定話者に固有の登録語に対応する音声単位のラベル系列を得る方法としては、各固定語のラベル系列相互の接続情報の代わりに音声単位が任意の順番で任意の長さで接続可能な接続情報を用いて、Ｖｉｔｅｒｂｉアルゴリズムにより、入力音声に含まれる全ての音声単位の系列を取得することにより実現できる。
【００２４】
以下、図面を参照して、本発明の実施形態を詳細に説明する。図１は本発明実施形態の基本構成を示す。
【００２５】
図１において、マイクロホン（不図示）から入力されたアナログ音声信号１１はＡＤコンバータによる入力手段ａによりデジタル信号２２に変換される。デジタル信号２２は変換手段ｂにより一定のフレーム周期で音響パラメータ３３に変換される。音響（特徴）パラメータとしては、上記「音声・音情報のディジタル信号処理」にも記述されているケプストラムなどを用いればよい。
【００２６】
（特定話者の単語登録）
特定話者に固有の登録語を登録する場合には、音声認識装置の不図示のスイッチにより単語登録を指示し、変換手段ｂを登録語ラベル系列抽出手段ｄに接続する。特定話者、すなわち、音声認識装置が接続されたカーオーディオのユーザ（特定話者）は登録したい音声をマイクロホンに入力する。
【００２７】
マイクロホンで発生したアナロク音声信号１１は変換手段ｂにより音響パラメータ３３に変換される。音響パラメータ３３が登録語ラベル系列抽出手段ｄに送られる。登録語ラベル系列抽出手段ｄはハードディスクやメモリ等の認識用データ蓄積手段ｃに蓄積された認識用データ４４を参照しながら、音声単位のラベル系列の認識を行い、音響パラメータ３３を登録語ラベル系列５５に変換する。認識用データ蓄積手段ｃに蓄積された認識用データ４４としては、隠れマルコフモデルでモデル化された音声単位のモデルのデータおよび音響パラメータ３３を登録語ラベル系列５５に変換するための音声単位のモデルのネットワークデータの２つが蓄積されている。
【００２８】
先行特許であるＵＳＰ５，７３２，１８７号に述べられているように，音声単位としては、音節，半音節，音韻が考えられる。
【００２９】
以下では、音韻を例にとって、不特定話者に共通の固定語と特定話者に固有の登録語が混在した語彙を認識する音声認識装置および方法について説明する。音響パラメータ３３を登録語ラベル系列５５に変換するための音声単位（今の場合は省略）のモデルのネットワークデータとは、許容される音韻の接続を表現したネットワークのことである。
【００３０】
例えば、図３の音韻ネットワークの場合、表１の２７種類の音韻が任意の順序で任意の長さで接続しうることを示している。このネットワークデータとＨＭＭによる音韻モデルのデータを用いれば、上記Ｖｉｔｅｒｂｉアルゴリズムにより、特定話者に固有の登録語の音声を音韻ラベルの系列に変換することができる。図４Ａに、ある話者が登録のために発声した「ジャズ」の入力信号から得られる音韻ラベルのネットワークの例を示す。音韻の認識率が１００％であれば、「ジャズ」と発声した音声からは、ｊ＋ａ＋ｚ＋ｕという音韻ラベル系列が得られるはずであるが、この例では、最後のｕが無声化して得られていない。
【００３１】
図４Ｂに、ある話者が登録のために発声した「ポップス」の入力信号から得られる音韻ラベルのネットワークの例を示す。音韻の認識率が１００％であれば「ポップス」と発声した音声からは、ｐ＋ｏ＋ｐ＋ｕ＋ｓ＋ｕという音韻ラベル系列が得られるはずであるが、ｐ、ｔ、ｋの識別は一般に困難であるため、２つ目のｐがｋに置き換わっている。こうして、登録語ラベル系列抽出手段ｄにより得られた音韻ラベルのネットワークを登録語ラベル系列５５と呼ぶことにする。登録語ラベル系列５５は登録手段ｉにより、ハードディスクやメモリ等の語彙ラベルネットワーク蓄積手段ｆに追加登録され、記憶される。
【００３２】
（不特定話者に共通の固定語の登録）
一方、不特定話者に共通の固定語のスペルから予めあるルールに従って音韻ラベルのネットワークを抽出することができる。あるいは、固定語に対する１つ以上の不特定話者の音声サンプルから前記（特定話者の単語登録）と同様にして１つ以上の音韻ラベルネットワークを作成することもできる。これらのネットワークを固定語ラベル系列６６と呼び、そのデータを語彙ラベルネットワーク蓄積手段ｆに転送するために一時記憶する手段、例えば、ＣＰＵおよびＲＡＭを固定語ラベル系列記憶手段ｅと呼ぶことにする。例えば、固定語「ＣＤ」、「ＭＤ」に対しては、図２Ａ、図２Ｂに示される固定語ラベル系列を得ることができる。固定語ラベル系列についてのデータはフロッピーディスクやＣＤ等の記録媒体に製造会社側で記録しておき、この記録媒体から音声認識装置内の固定語レベル系列記憶手段ｅに引き渡せばよい。固定語レベル系列記憶手段ｅを介して語彙ラベルネットワーク蓄積手段ｆに蓄積（記憶）することにより不特定話者についての固定語ラベル系列を登録する。
【００３３】
登録語ラベル系列抽出手段ｄから抽出され、登録手段ｉにより語彙ラベルネットワーク蓄積手段ｆに追加登録される、登録語ラベル系列５５と固定語ラベル系列記憶手段ｅにより記憶された固定語ラベル系列６６から語彙ネットワーク蓄積手段ｆに蓄積される語彙ラベルネットワーク７７を構成する方法としては、以下の３つの方法が考えられる。
【００３４】
まず、１つ目は、登録語ラベル系列５５と固定語ラベル系列６６の両方を含むネットワークを形成し、それを語彙ラベルネットワーク７７とする方法である。図５に「ＣＤ」、「ＭＤ」の固定語ラベル系列と「ジャズ」、「ポップス」の登録語ラベル系列を接続した語彙ラベルネットワークを示す。
【００３５】
このネットワークにより、「ＣＤ」、「ＭＤ」の固定語と「ジャズ」、「ポップス」の登録語の４つの単語の内、いずれでも認識できる音声認識装置を実現することができる。
【００３６】
２つ目の方法は、固定語ラベル系列６６のみを含むネットワークを形成し、それを語彙ラベルネットワーク７７とする方法である。図６に「ＣＤ」、「ＭＤ」の固定語ラベル系列を接続した語彙ラベルネットワークを示す。このネットワークにより、「ＣＤ」、「ＭＤ」の固定語の２つの単語の内、いずれかを認識できる不特定話者音声認識装置を実現することができる。
【００３７】
３つ目の方法は、登録語ラベル系列５５のみを含むネットワークを形成し、それを語彙ラベルネットワーク７７とする方法である。図７に「ジャズ」、「ポップス」の登録語ラベル系列を接続した語彙ラベルネットワークを示す。このネットワークにより、「ジャズ」、「ポップス」の登録語の２つの単語の内、いずれかを認識できる特定話者音声認識装置を実現することができる。
【００３８】
なお、音声によりＣＤチェンジャーに動作指示を与える場合には、予め不特定話者の固定語のラベル系列と動作命令を関連づけておけばよい。もし、認識精度が十分に高くない場合には、特定話者（ユーザー）の入力音声から上記の方法により得られた登録語ラベル系列と動作命令を関連づけるとよい。たとえば、このための方法としては、予め、表示器に選択可能な動作指示内容を表示させた後、カーソルキー等で表示の動作指示を選択した後、この動作指示に関連付ける単語を音声でマイクロホンから入力して、登録語ラベル系列抽出手段ｄにより抽出された登録語ラベル系列５５を登録手段ｉにより語彙ラベルネットワーク蓄積手段ｆに登録する。また、動作指示内容を示すコードと、対応する登録語ラベル系列とをテーブル（関連付けテーブル）形態でハードディスク等に保存しておくと、以後、音声による動作指示が可能となる。この関連付けテーブルには製造会社が用意した固定語ラベル系列と、それらに対応する動作指示コードをも記憶してもよいことは勿論である。
【００３９】
（音声認識処理）
ユーザは不図示のモード指示スイッチにより音声認識モードを指示すると、変換手段ｂと認識手段ｇに接続が切り替わる。入力手段ａから入力され、変換手段ｂで変換されて出力された音響パラメータ３３と認識用データ蓄積手段ｃに蓄積された音韻モデルのデータからなる認識用データ４５と、語彙ラベルネットワーク蓄積手段ｆに蓄積された語彙ラベルネットワーク７７を用いて、認識手段ｇにおいて上述のＶｉｔｅｒｂｉアルゴリズムにより、単語についての認識結果８８を得る。認識結果８８は、スピーカーやディスプレイなどの出力手段ｈにより、音声や画面による出力結果９９として話者に出力される。また、音声によりＣＤチェンジャーなどに対して動作の指示を与える場合には、上述の関連付けテーブルにより音声認識結果に対応する動作指示の内容が判別されて動作指示に対応する制御プログラム等が実行される。
【００４０】
以上のシステム構成により、ユーザは頻繁に使用する動作指示については自己の音声で単語形態で登録しておくことで、より精度よく、動作指示を行うことができる。このシステムのメリットは、ユーザ（特定話者）が登録した登録語ラベル系列がラベル認識（認識用データを使用した音響パラメータからラベルへの変換）において誤認識されても、影響がないという点である。
【００４１】
音声認識装置では、誤認識結果のラベル系列のままで、動作指示が登録され、音声認識モードで特定話者がその動作指示を音声で入力した場合にも、音声認識装置は同じ内容で誤認識を行うので、かならず、予め関連付けられた動作指示が選択される。
【００４２】
一方、不特定話者用の固定語ラベル系列を音声認識に使用した場合には、ラベル認識に誤認識が生じると、動作指示に対応するラベル系列と上記誤認識の結果が一致しないので、音声の動作指示が正しく認識されない場合がある。このため、製造会社が用意する固定語レベル系列の中の特定のものと同じ内容の動作指示を特定話者が音声で登録することができる、また、特定話者の登録語ラベル系列により音声認識モードにおいて、正しく音声認識を行うことができる。
【００４３】
本実施形態では音声単位として音韻から分解されて生成された不特定話者用の音響イベントのモデルを用いることにより、特定話者の発声する登録語を言語に依らず、精度良く認識する。
【００４４】
以下では、音韻よりも小さな音声単位として、音韻ＨＭＭを構成する状態を用いた場合について説明を加える。言語や音韻の種類を問わず、一般に音韻は図８に示される４つの状態からなるＨＭＭでモデル化されることが多い。
【００４５】
状態１は初期状態であり、状態遷移は必ず状態１から開始される。状態４は最終状態であり、この状態に遷移するとそれ以上状態遷移は発生しない。ａｉｊは状態ｉから状態ｊへの遷移する確率を表し、遷移確率と呼ばれる。ｊ＝ｉ＋１とすると、ａｉｉ＋ａｉｊ＝１．０である。
【００４６】
ｂｉ（ｘ）は状態ｉから状態遷移する際に、観測ベクトルｘが出力される確率を表し、出力確率と呼ばれる。観測ベクトルは、図１の音響パラメータ３３に対応し、ケプストラムがよく用いられる。出力確率ｂｉ（ｘ）は１個以上の正規分布の重ね合わせで表現される。また、出力確率は状態ｉへ状態遷移する際に、観測ベクトルｘが出力される確率ｂｉ（ｘ）として定式化される場合や、状態ｉから状態ｊへ状態遷移する際に、観測ベクトルｘが出力される確率ｂｉｊ（ｘ）として定式化される場合もある。
【００４７】
出力確率ｂｉ（ｘ）が１個以上の正規分布の重ね合わせで定式化される場合、ＨＭＭを連続ＨＭＭと呼ぶ。その他に、半連続ＨＭＭや離散ＨＭＭで音韻をモデル化する場合があるが、本発明は同様に適用が可能である。
【００４８】
Ｒａｂｉｎｅｒｅｔａｌ，ＦｕｎｄａｍｅｎｔａｌｓｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＮｅｗＪｅｒｓｅｙ，Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ，１９９３，ＩＳＢＮＯ−１３−０１５１５７−２，ｐ．４４１−４４７などの文献からも周知の方法により、図８に示される４状態の音韻ＨＭＭを遷移確率と出力確率の値と状態数を変更することなく、図９、図１０、図１１の３つの２状態からなるＨＭＭに分割する。これらを音響イベントＨＭＭと呼ぶこととし、状態番号に合わせて、＊．１、＊．２、＊．３と表すこととする。ここで、＊は表１の音韻ラベルを表す。
【００４９】
これらの新しく生成されたＨＭＭは音韻の中の音響的なイベントを表現しているものと考えることができるため、音響イベントＨＭＭと呼ぶことにする。これらの音響イベントＨＭＭが任意の順番で任意の長さで接続しうるネットワークを図１２に示す。このネットワークを無制約音響イベントネットワークと呼ぶ。この無制約音響イベントネットワークは、図３の音韻ネットワークに比べて、音響的なイベントの系列の自由度が高く、その分、音響的なイベント系列の表現能力が高いと考えられる。
【００５０】
従って、図３の音韻ネットワークを用いてＶｉｔｅｒｂｉアルゴリズムにより得られる音韻系列に比べて、図１２の無制約音響イベントネットワークを用いてＶｉｔｅｒｂｉアルゴリズムにより得られる音響イベント系列の方が、特定話者に固有の登録語の発声をより精度良く近似するものと期待できる。
【００５１】
そこで、無制約音響イベントネットワークを用いてＶｉｔｅｒｂｉアルゴリズムにより得られる音響イベント系列を図１の登録語ラベル系列５５として用いることにより、登録語に対してより高い認識性能が得られると思われる。
【００５２】
一方、図１２の無制約音響イベントネットワークでは、特定話者に固有の登録語の発声を近似する音響イベント系列の候補が数多く存在するため、その選択に多くの処理時間を要することも考えられる。
【００５３】
そこで、図１３に示すような状態の位置に関する制約を設けたネットワークを使用することも処理時間を削減する上で有効であると考えられる。図１３のネットワークを位置制約つき音響イベントネットワークと呼ぶことにする。このネットワークでは、図１２の無制約音響イベントネットワークに比べて、接続しうる音響イベントの数が３分の１になっているため、特定話者に固有の登録語を近似する音響イベント系列の候補数が少なくなっており、若干の認識性能の低下は起こるかも知れないが、特定話者に固有の登録語を近似する音響イベント系列を求める処理時間もそれに応じて短縮できると考えられる。
【００５４】
実際に、音韻系列と音響イベント系列で特定話者の登録語の認識性能の比較実験を行った。
【００５５】
日本語の音韻ＨＭＭと図３の音韻ネットワークを用いて、Ｖｉｔｅｒｂｉアルゴリズムにより１２８単語の音韻系列を求め、それを認識語彙として、日本語、英語、仏語、独語、伊語についての特定話者単語認識を行うための男女各２名を選んだ。また、その時の音声認識の平均認識率および最低認識率を表２に示す。音声と雑音の比率はいずれも１０ｄＢである。
【００５６】
（表２）
言語日本語英語仏語独語伊語
平均認識率 93.6% 86.9% 88.7% 92.2% 91.4%
最低認識率 92.2% 82.8% 83.6% 85.2% 87.5%
音韻ネットワークを用いた場合の
特定話者単語認識性能
【００５７】
次に日本語の音韻ＨＭＭから上述の方法により分解されて生成された音響イベントＨＭＭと図１３の位置制約つき音響イベントネットワークを用いてＶｉｔｅｒｂｉアルゴリズムにより１２８単語の音響イベント系列を求め、それを認識対象とした場合の日本語、英語、仏語、独語、伊語についての特定話者単語認識の平均認識率および最低認識率を表３に示す。
【００５８】
（表３）
言語日本語英語仏語独語伊語
平均認識率 97.5% 92.9% 94.0% 94.0% 93.6%
最低認識率 96.1% 91.1% 92.2% 91.4% 91.4%
位置制約つき音響イベントネットワークを用いた場合の
特定話者単語認識性能
【００５９】
表２と表３を比較すると言語に依らず、音韻系列を使用するよりも音響イベント系列を使用する方が平均認識率が２−６％程度向上していることが分る。また、最低認識率も４−８％向上していることが分る。これらの結果から図３の音韻ネットワークを用いてＶｉｔｅｒｂｉアルゴリズムにより得られる音韻系列を使用した場合に比べ、図１３の位置制約つき音響イベントネットワークを用いてＶｉｔｅｒｂｉアルゴリズムにより得られる音響イベント系列を使用した方が、特定話者に固有の登録語に対してより高い性能が得られることが明らかになった。この音響イベント系列の優位性は、図１３の位置制約つき音響イベントネットワークのような制約のある音響イベントネットワークを用いたとしても音響イベント系列の方が音韻系列よりも特定話者に固有の登録語の近似精度が高いことによると考えられる。また、ＪＰ、７−１０４６７８、Ｂ２（三洋電機株式会社）１３．１１月．１９９５（１３．１１．９５）（ファミリーなし）には、特定話者の入力音声から音声単位のラベル系列を生成し、それを追加登録する音声認識装置が記載されている。しかしながら、この文献は、音声単位が音節であり、かつ、「実施例」の項に述べられているように、まず最初に音声単位である音節（「あ」、「い」など）の標準パターンを登録し、その後、登録された音節の標準パターンを用いることにより、任意単語の音声登録を行う方法について開示している。言い換えれば、特定話者の音節の標準パターンの登録が前提となっており、それがなくては、高い認識性能を発揮するのに十分な精度で、任意単語を音節のラベル系列の形態で登録することができないという不具合をかかえている。
【００６０】
これに対し、本願発明によれば、表３の結果から、図９〜図１１に示すような、遷移確率と出力確率の値および状態数を変更しない簡単な方法で作成された音響イベントを用いるだけで、日本語、外国語を問わず、不特定話者の音声認識装置において、特定話者の任意の登録語を音声で登録することが可能で、かつ高い認識性能が得られるとの結論に達し、この点が先述の従来技術に対する本願発明の進歩性の根幹をなす。
【００６１】
上述の実施形態については以下の形態が実施できる。
１）図１に示したシステム構成は、デジタル回路で構成してもよい、マイクロコンピュータやパーソナルコンピュータのソフトウェア処理で実現することもできる。この場合、変換手段ｂ、登録語ラベル系列抽出手段ｄ，認識手段ｇについてＣＰＵがソフトウェアプログラムを実行することによりそれらの機能が実現される。どのような回路構成とするかは、音声認識装置の用途に応じて適宜決定すればよい。たとえば、パーソンナルコンピュータにおいて文字入力および制御キー入力を音声で行う場合には、パーソナルコンピュータに搭載されたＣＰＵ，ハードディスクを使用して図１のシステムを実現するとよい。
２）上述の実施形態では、不特定話者に共通の固定語ラベル系列をＣＤＲＯＭ等から音声認識装置に登録可能としているが、音声認識装置に内蔵のＥＥＰＲＯＭ等の不揮発性書き込み可能メモリに記憶してもよいことは勿論である。この場合には不足する単語、あるいはより認識精度を高めたい単語を特定話者により音声で登録する。
【図面の簡単な説明】
【図１】図１は本発明実施形態のシステム構成を示すブロック図である。
【図２Ａ】図２Ａは「ＣＤ（シーディー）」の固定語ラベル系列を示す説明図である。
【図２Ｂ】図２Ｂは「ＭＤ（エムディー）」の固定語ラベル系列を示す説明図である。
【図３】図３は音韻ネットワークの内容を示す説明図である。
【図４Ａ】図４Ａは「ジャズ」の登録語ラベル系列を示す説明図である。
【図４Ｂ】図４Ｂは「ポップス」の登録語ラベル系列を示す説明図である。
【図５】図５は固定語と登録語が混在した語彙ラベルネットワークを示す説明図である。
【図６】図６は固定語だけの語彙ラベルネットワークを示す説明図である。
【図７】図７は登録語だけの語彙ラベルネットワークを示す説明図である。
【図８】図８は音韻ＨＭＭの構造を示す説明図である。
【図９】図９は音響イベントＨＭＭ＊．１の構造を示す説明図である。
【図１０】図１０は音響イベントＨＭＭ＊．２の構造を示す説明図である。
【図１１】図１１は音響イベントＨＭＭ＊．３の構造を示す説明図である。
【図１２】図１２は無制約音響イベントネットワークを示す説明図である。
【図１３】図１３は位置制約つき音響イベントネットワークを示す説明図である。

Claims

入力音声を、単語より短い長さの音声単位のモデルの情報を用いて、単語認識を行う音声認識装置において、
不特定話者の入力音声の単語認識のために共通使用する固定語に対する、前記音声単位のラベル系列を蓄積しておく語彙ラベルネットワーク蓄積手段と、
特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成する登録語ラベル系列抽出手段と、
前記不特定話者の入力音声の単語認識のために共通使用する固定語に対する、音声単位のラベル系列と前記作成された登録語のラベル系列を並列ネットワークの形態で前記語彙ラベルネットワーク蓄積手段に記憶する登録手段と、
隠れマルコフモデルでモデル化された前記音声単位のモデルのデータと、当該音声単位のモデルのネットワークデータとを認識用データとして蓄積しておく認識用データ蓄積手段と、
前記語彙ラベルネットワーク蓄積手段に記憶された並列ネットワークの形態を有する語彙ラベルネットワークと、前記認識用データを用いて入力音声を認識する認識手段と、
を具え、前記音声単位が、音韻の隠れマルコフモデルの各状態を遷移確率と出力確率の値と状態数を変更することなく分割して生成した音響イベントであることを特徴とする音声認識装置。
前記登録語ラベル系列抽出手段は、前記音声単位の接続に関する制約条件を記述したネットワークを用いて、特定話者の登録語の入力音声から、前記音声単位の接続の制約条件を満足する、前記音声単位のラベル系列の中で最も高い確からしさを持つラベル系列を作成することを特徴とする請求項１に記載の音声認識装置。
請求項１または請求項２に記載の音声認識装置において、前記固定語を前記語彙ラベルネットワーク蓄積手段に登録する手段をさらに具えたことを特徴とする音声認識装置。
前記ネットワークデータは、前記音響イベントを並列に接続したものと、終点から始点へ直接帰還する経路とを併せ持つ無制約音響イベントネットワークであることを特徴とする請求項１乃至請求項３の何れか１項に記載の音声認識装置。
前記ネットワークデータは、前記音響イベントの状態番号ごとに並列に接続したものを当該状態番号の順番で直列に接続したものと、終点から始点へ直接帰還する経路とを併せ持つ位置制約つき音響イベントネットワークであることを特徴とする請求項１乃至請求項３の何れか１項に記載の音声認識装置。
入力音声を、単語より短い長さの音声単位のモデルの情報を用いて、単語認識を行う音声認識方法において、
不特定話者の入力音声の単語認識のために共通使用する固定語に対する、前記音声単位のラベル系列を語彙ラベルネットワーク蓄積手段に蓄積する語彙ラベルネットワーク蓄積ステップと、
特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成する登録語ラベル系列抽出ステップと、
前記不特定話者の入力音声の単語認識のために共通使用する固定語に対する、音声単位のラベル系列と前記作成された登録語のラベル系列を並列ネットワークの形態で前記語彙ラベルネットワーク蓄積手段に記憶する登録ステップと、
隠れマルコフモデルでモデル化された前記音声単位のモデルのデータと、当該音声単位のモデルのネットワークデータとを認識用データとして蓄積しておく認識用データ蓄積ステップと、
前記語彙ラベルネットワーク蓄積手段に記憶された並列ネットワークの形態を有する語彙ラベルネットワークと、前記認識用データを用いて認識手段により入力音声を認識する認識ステップと、
を備え、前記音声単位が、音韻の隠れマルコフモデルの各状態を遷移確率と出力確率の値と状態数を変更することなく分割して生成した音響イベントであることを特徴とする音声認識方法。
前記登録語ラベル系列抽出ステップは、前記音声単位の接続に関する制約条件を記述したネットワークを用いて、特定話者の登録語の入力音声から、前記音声単位の接続の制約条件を満足する、前記音声単位のラベル系列の中で最も高い確からしさを持つラベル系列を作成することを特徴とする請求項６に記載の音声認識方法。
請求項６または請求項７に記載の音声認識方法において、前記固定語を前記語彙ラベルネットワーク蓄積手段に登録可能とすることを特徴とする音声認識方法。
前記ネットワークデータは、前記音響イベントを並列に接続したものと、終点から始点へ直接帰還する経路とを併せ持つ無制約音響イベントネットワークであることを特徴とする請求項６乃至請求項８の何れか１項に記載の音声認識方法。
前記ネットワークデータは、前記音響イベントの状態番号ごとに並列に接続したものを当該状態番号の順番で直列に接続したものと、終点から始点へ直接帰還する経路とを併せ持つ位置制約つき音響イベントネットワークであることを特徴とする請求項６乃至請求項８の何れか１項に記載の音声認識方法。