WO2004047075A1

WO2004047075A1 - 音声処理装置および方法、記録媒体並びにプログラム

Info

Publication number: WO2004047075A1
Application number: PCT/JP2003/014342
Authority: WO
Inventors: Hiroaki Ogawa
Original assignee: Sony Corporation
Priority date: 2002-11-21
Filing date: 2003-11-12
Publication date: 2004-06-03
Also published as: JP4072718B2; DE60318385D1; US20050143998A1; EP1460615B1; KR101014086B1; KR20050083547A; DE60318385T2; JP2004170765A; EP1460615A1; EP1460615A4; CN1692405A; CN100354929C; US7653541B2; AU2003280726A1

Abstract

本発明は、削除誤りを少なくし、音声認識率を向上させることができるようにする音声処理装置および方法、記録媒体並びにプログラムに関する。図１６Cに示されるように、単語「は」と単語「<OOV>」の境界に対応する部分において、音節「ハ」を含まないパス９１、並びに、音節「ハ」を含むパス９２およびパス９３が生成され、単語「<OOV>」と単語「です」の境界に対応する部分において、音節「ワ」を含まないパス１０１、並びに、音節「ワ」を含むパス１０２およびパス１０３が生成され、単語と音節とのネットワークが生成される。これにより、入力音声に対して最適なネットワーク上のサブワード系列を選択することができる。本発明は、音声認識装置に適用することができる。

Description

明細書

音声処理装置および方法、記録媒体並びにプログラム技術分野

本発明は、音声処理装置および音声処理方法、記録媒体並びにプログラムに関し、特に、連続して入力される音声信号を音声認識している最中に、その入力音声信号に含まれる未知語を抽出し、簡単に登録することができるようにした音声処理装置および音声処理方法、並びにプログラムおよび記録媒体に関する。背景技術

新規語彙を獲得する機能をもつ連続音声認識システムにおいて新規語彙を獲得するためには、音声中の未知語部分を推定することと、未知語部分に発音を付与することが必要である。

音声中の未知語部分を推定するためには、音声に対して音韻や音節など単語より短い単位（サブワード）で音声認識を行い、音声に音節の系列を付与し（つまり、読み仮名を振り）ながら、各音節のスコアを求め、このスコアに適切なペナルティ一を付与することにより未知語（00V : 0ut Of Vocabulary) のスコアを推定する。単語音声認識を行う場合、通常の単語候補以外は未知語である可能性を考慮して、通常の単語候補以外に対しては上記のように求めたスコアを用いる。これにより、発声された音声中に未知語がある場合、未知語のスコアが正解単語のスコアより悪く、不正解単語のスコアより良いと推定されれば、未知語部分が未知語であると認識される。次に、未知語部分に発音を付与するためには、未知語部分の音節タイプライタにおける時刻情報に基づいて、上述したサブヮード系列（例えば、音節系列）を参照する。これにより、未知語に付与される音節列も推定することができる（例えば、 I ssam Bazz i and James R. Gl ass著

「Proceedi ngs of I nternat ional Conference Spoken Language

Proce s s ing ( ICSLP) 2000」、 2 0 0 0年 1 0月発行、 p. 433-436 (以下、非特許文献 1と称する）、甲斐充彦 and中川聖ー、冗長後 ·言い直し等を含む発話のための未知語処理を用いた音声認識システムの比較評価、電子情報通信学会論文誌、 1 9 9 7年 1 0月発行、 J80- D- II、 p. 2615-2625 (以下、非特許文献 2と称する) 、および、小窪浩明、大西茂彦、山本博史、 and菊井玄ー郎、サブワードモデルを用いた未登録語認識の効率的探索手法、情報処理学会論文誌、 2 0 0 2年 7月発行、 Vol. 43、 No. 7、 p. 2082-2090 (以下、非特許文献 3 と称する）参照）。

しかし、音節のサーチの場合、音節単位のスコアは得られるが、単語の境界がその音節単位と必ずしも一致するとは限らない。図 1を参照して、単語列の境界とサブヮード系列の境界の不一致について説明する。

単語列のサーチの結果得られる単語列の単語境界の時刻と、サブヮード系列のサーチの結果得られるサブワード系列の時間的境界は必ずしも一致するとは限らない。例えば、図 1に示されるように、単語音声認識による認識結果が、 wordl く 00V> word2であるとき、く 00V>と周辺単語の境界では、単語列の境界とサブヮード系列（Syl l乃至 Syl8) の境界の不一致が発生することがある。なお、

〈00V>は未知語を表すシンボルである。図 1の例では、く oov>の時間的に前の境界は Syl4の途中に対応し、時間的に後の境界は Syl7の途中に対応している。これにより、不一致が発生している境界のサブヮードである Syl4と Syl7は、く 00V>に含まれたり、含まれなかったりする。従って、く 00V>の発音を取得するためには、サブワードの境界を決定しなければならない。

サブヮードの境界を決定する方法として、サプヮ一ド系列によりその境界を決定する方法が知られている。その方法、すなわち、サブワード系列によるく oov> 発音取得方法について、図 2を参照して以下に説明する。

サブワード系列によるく 00V>発音取得方法は、通常の音声認識と、音節タイプライタによる認識が終了した時点で、く 00V>の両端の音節タイプライタ時刻を含む音節に対して、各音節の継続時間の 5 0 %以上がく 00V>の区間に含まれた場合、その音節をく 00V>の一部とする方法である。例えば、図 2に示されるように、認識された単語列の一部が、単語 1、く 00V>、単語 2という配列であったとする。また、音節タイプライタによるサブワード系列の一部が、音節 i、音節 j、音節 kという配列であったとする。この場合、 L1 (音節 iの単語 1側に対応する部分の長さ（時間） ) 〉L² (音節 iのく 00VM則に対応する部分の長さ（時間））であるので、音節 iはく 00V>に含まれないと判定される。これに対して、 L3 (音節 kのく 00VM則に対応する部分の長さ（時間））〉L⁴ (音節 kの単語 2側に対応する部分の長さ（時間） ) であるので、音節 kはく 00V>に含まれると判定される。

図 3と図 4は、図 2のサブヮード系列によるく 00V〉発音取得方法を用いた実験結果を示す。

例えば、図 2のサブワード系列によるく 00V>発音取得方法を、 1 2名（男女各 6名) の旅行ドメイン (ホテルのチェックインやレストランでの注文など）の 7 5 2種類の発話について実験した。図 3に示されるように、特徴量、音響モデル、および言語モデルについて条件を設定した。特徴量は、 1 6 b it , 1 6 KHzのサンプリング、 1 O msecのフレーム周期、 2 5 msecのフレーム長、並びに 1 2次の MFCC (Mel Frequency Cepstrum Coffi cients) (メノレ周波数ケプトラム）、および 0次乃至 1 2次までの MFCCの 1次回帰係数 ( 2 5次元) に設定されている。音響モデルは、 1 6 mixture, 1 0 0 O ti ed - stateの匪 (Hidden Markov Model ) とされ、言語モデルは、サブワードトライグラム、 Cut-off tri gram 5 , bigram 5とされている。なお、この例においては、 3 1 4種類の音節および音節連鎖をサブワードとして用いた。言語モデルは、日経新聞 6年分のコーパスで学習した音韻のトライグラムを用いた。

図 4は、図 2のサブヮード系列によるく 00V>発音取得方法を適用した場合のサブワード系列の、認識精度、置換誤り、削除誤り、および挿入誤りの性能を示しており、それぞれの値は、百分率で表されている。ここで、置換誤りとは、本来の音節とは異なる音節に置換する誤りであり、削除誤りとは、本来認識されるべき音節が認識されない誤り（デリーシヨンエラー）であり、揷入誤りとは、本来認識されるべきではない音節が認識結果に現れる誤り（ィンサーシヨンエラー）である。なお、認識精度 Accは、総音節数 N、正解数 NJ、揷入誤りの数 N— Iにより、式（1 ) から求められる。

Acc= (N_C-N_I) /N 式（ 1 )

図 4に示されるように、図 2のサブワード系列によるく 00V>発音取得方法による認識精度は、 40. 2%であり、削除誤りと揷入誤りの発生率は、それぞれ、 33. 3%と 4. 1%であった。

しかしながら、図 2のサブワード系列によるく 00V〉発音取得方法では、連続単語認識を行う場合、音節の境界を考慮しながら単語認識を行わなければならない。また、例えば、図 4に示されるように、認識精度が 40. 2%とそれほど高くなく、 —方、削除誤りの発生率が 33. 3%と高ことから、ユーザは、その連続音声認識システムが搭載されたロボットを賢くないように感じる傾向がある。さらに、例えば、図 4に示されるように、削除誤りの発生率が 33. 3%であるのに対して、挿入誤りの発生率は 4. 1%であり、両者の発生バランスが悪かった。発明の開示

本発明はこのような状況に鑑みてなされたものであり、音声認識の認識率を向上させることができるようにするとともに、削除誤りと挿入誤りの発生をバランスさせることを目的とする。

本発明の音声処理装置は、連続する入力音声を認識する認識手段と、認識手段により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、未知語判定手段において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブヮードを含まないパスを有するネットワークを生成するネットワーク生成手段と、未知語判定手段により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得手段と、獲得手段により獲得された単語を他の情報に関連付けて登録する登録手段とを備えることを特徴とする。この音声処理装置は、認識結果が特定のパターンにマッチするか否かを判定するパターン判定手段をさらに備え、登録手段は、パターン判定手段により、認識結果が特定のパターンにマッチしていると判定された場合、単語を登録するようにすることができる。

この音声処理装置は、未知語判定手段により、未知語が含まれていないと判定された場合、または、パターン判定手段により、認識結果が特定のパターンにマツチしていないと判定された場合、入力音声に対応する応答を生成する応答生成手段をさらに備えるようにすることができる。

登録手段は、他の情報として、カテゴリに関連付けて単語を登録するようにすることができる。

登録手段は、パターン判定手段によりマッチすると判定されたパターンに関連付けて、他の情報を登録するようにすることができる。

獲得手段は、未知語をクラスタリングすることで単語を獲得するようにすることができる。

ネットワーク生成手段により生成されたネットワークは、単語と音節とのネットワークであるようにすることができる。

この音声処理装置は、入力音声とネットワークとのマッチングに基づいて、ネットワーク上のスコアの高いパスを選択する選択手段と、選択手段により選択されたパスを含むネットワークに基づいて、未知語に対応する発音を取得する発音取得手段とをさらに備えるようにすることができる。

この音声処理装置は、入力音声の所定の区間について、既知語でマッチングさせた場合と音節タイプライタで認識させた場合の音響スコァを比較する比較手段をさらに備え、比較手段は、音節タイプライタで認識させた音響スコアの方が優れている場合、その区間を未知語であると推定するようにすることができる。比較手段は、既知語でマッチングさせた場合の音響スコアに対して、音節タイプライタで認識させた場合の音響スコアに補正をかけた上で比較を行うようにすることができる。本発明の音声処理方法は、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、判定ステップの処理において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブヮードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、判定ステップの処理により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得ステップと、獲得ステップの処理により獲得された単語を他の情報に関連付けて登録する登録ステップとを含むことを特徴とする。 '

本発明の記録媒体のプログラムは、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、判定ステップの処理において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブヮードを含むパスと、そのサブヮードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、判定ステップの処理により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得ステップと、獲得ステップの処理により獲得された単語を他の情報に関連付けて登録する登録ステップとを含むことを特徴とする。

本発明のプログラムは、連続する入力音声を認識する認識ステップと、認識ステツプの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、判定ステップの処理において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブヮードを含まないパスを有するネットワークを生成するネットヮーク生成ステップと、判定ステップの処理により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得ステップと、獲得ステップの処理により獲得された単語を他の情報に関連付けて登録する登録ステップとをコンピュータに実行させることを特徴とする。本発明の音声処理装置および方法、記録媒体並びにプログラムにおいては、連続する入力音声が認識されて、認識結果に未知語が含まれている場合、ネットヮークが生成され、そのネットワークに基づいて未知語の発音が取得され、未知語に対応する単語が獲得され、その単語が他の情報に関連付けて登録される。図面の簡単な説明

図 1は、単語列の境界とサブワード系列の境界の不一致を説明する図である。図 2は、サブヮード系列によるく 00V>発音取得方法を説明する図である。

図 3は、図 2のサブワード系列によるく 00V〉発音取得方法を用いた場合の実験の条件を示す図である。

図 4は、図 2のサブワード系列によるく 00V〉発音取得方法を用いた実験結果を示す図である。

図 5は、本発明を適用した対話システムの一実施の形態の構成例を示すプロック図である。

図 6は、クラスタの状態の例を示す図である。

図 7は、単語の登録を示す図である。

図 8は、図 5の音声認識部の構成例を示すブロック図である。

図 9は、図 5の対話システムの動作を説明するためのフローチヤ一トである。図 1 0は、図 9のステップ S 2 2の音声認識処理の詳細を説明するためのフロ一チャートである。

図 1 1は、図 1 0のステップ S 5 4の単語列生成処理の詳細を説明するためのフローチヤ一トである。

図 1 2は、言語モデルデータベースで用いられる文法の例を示す図である。図 1 3は、有限状態オートマトンによる言語モデルの例を示す図である。図 1 4は、 tri_gramを用いた言語スコアの計算の例を示す図である。

図 1 5は、 tri_gramデータベースの例を示す図である。

図 1 6は、ネットワークの生成について説明する図である。図 1 7は、本発明を適用した実験結果を示す図である。

図 1 8は、本発明を適用した実験結果を示す図である。

図 1 9は、図 9のステップ S 2 8の単語獲得処理の詳細を説明するためのフロ一チヤ一トである。

図 2 0は、テンプレートの例を示す図である。

図 2 1は、音節タイプライタを組み込んだ文法の例を示す図である。

図 2 2は、本発明を適用したコンピュータの一実施の形態の構成例を示すプロック図である。発明を実施するための最良の形態

以下、本発明の実施の形態について、図面を参照して説明する。図 5は、本発明を適用した対話システムの一実施形態の構成例を示している。

この対話システムは、例えば口ポットに搭載されて、ユーザ（人間）と音声により対話を行うシステムであり、例えば、音声が入力されると、その音声から名前が取り出され、登録されるようになっている。

即ち、音声認識部 1には、ユーザからの発話に基づく音声信号が入力されるようになつており、音声認識部 1は、入力された音声信号を認識し、その音声認識の結果としてのテキスト、その他付随する情報を、対話制御部 3と単語獲得部 4 に必要に応じて出力する。

単語獲得部 4は、音声認識部 1が有する認識用辞書に登録されていない単語について、音響的特徴を自動的に記憶し、それ以降、その単語の音声を認識できるようにする。

即ち、単語獲得部 4は、入力音声に対応する発音を音節タイプライタによって求め、それをいくつかのクラスタに分類する。各クラスタは I Dと代表音節系列を持ち、 I Dで管理される。このときのクラスタの状態を、図 6を参照して説明する。

例えば、「あか」、「あお」、「みどり」という 3回の入力音声があつたとする。この場合、単語獲得部 4は、 3回の音声を、それぞれに対応した「あか」クラスタ 2 1、「あお」クラスタ 2 2、「みどり」クラスタ 2 3の、 3つのクラスタに分類し、各クラスタには、代表となる音節系列（図 6の例の場合、 "ァ / 力" 、 "ァ /ォ" 、 "ミ /ド /リ" ）と I D (図 6の例の場合、「1」，「 2」，「 3」）を付加する。

ここで再ぴ、「あか」という音声が入力されると、対応するクラスタが既に存在するので、単語獲得部 4は、入力音声を「あか」クラスタ 2 1に分類し、新しいクラスタは生成しない。これに対して、「くろ」という音声が入力された場合、対応するクラスタが存在しないので、単語獲得部 4は、「くろ」に対応したクラスタ 2 4を新たに生成し、そのクラスタには、代表的な音節系列（図 6の例の場合、 "ク /口" ）と I D (図 6の例の場合、「4」）を付加する。

したがって、入力音声が未獲得の語であるか否かは、新たなクラスタが生成されたかどうかによつて判定できる。なお、このような単語獲得処理の詳細は、本出願人が先に提案した特願 2 0 0 1 - 9 7 8 4 3号に開示されている。

連想記憶部 2は、登録した名前（未知語）がユーザ名であるか、キャラクタ名であるかといったカテゴリ等の情報を記憶する。例えば、図 7の例では、クラスタ I Dとカテゴリ名とが対応して記憶されている。図 7の例の場合、例えば、クラスタ I D 「1」、「 3」、「4」は「ユーザ名」のカテゴリに対応され、クラスタ I D 「 2」は、「キャラクタ名」のカテゴリに対応されている。

対話制御部 3は、音声認識部 1の出力からユーザの発話の内容を理解し、その理解の結果に基づいて、名前（未知語）の登録を制御する。また、対話制御部 3 は、連想記憶部 2に記憶されている登録済みの名前の情報に基づいて、登録済みの名前を認識できるように、それ以降の対話を制御する。

図 8は、音声認識部 1の構成例を示している。

音声認識部 1は、マイクロホン 4 1、 AD変換部 4 2、特徴量抽出部 4 3、マツチング部 4 4、音節タイプライタ部 4 5、制御部 4 6、ネットワーク生成部 4 7、音響モデルデータベース 5 1、辞書データベース 5 2、および言語モデルデータベース 5 3より構成されている。

ユーザの発話は、マイクロホン 4 1に入力され、マイクロホン 4 1では、その発話が、電気信号としての音声信号に変換される。この音声信号は、 AD

(Analog Digital) 変換部 4 2に供給される。 AD変換部 4 2は、マイクロホン 4 1からのアナログ信号である音声信号をサンプリングし、量子化し、ディジタル信号である音声データに変換する。この音声データは、特徴量抽出部 4 3に供給される。

特徴量抽出部 4 3は、 AD変換部 4 2からの音声データについて、適当なフレームごとに、例えば、スぺクトル、パワー線形予測係数、ケプストラム係数、線スペクトル対等の特徴パラメータを抽出し、マッチング部 4 4および音節タイプライタ部 4 5に供給する。

マッチング部 4 4は、特徴量抽出部 4 3からの特徴パラメータに基づき、音響モデ/レデータベース 5 1、辞書データベース 5 2、および言語モデ /レデータべ一ス 5 3を必要に応じて参照しながら、マイクロホン 4 1に入力された音声（入力音声）に最も近い単語列を求め、ネットワーク生成部 4 7に出力する。

音響モデルデータベース 5 1は、音声認識する音声の言語における個々の音韻や音節などの音響的な特徴を表す音響モデルを記憶している。音響モデルとしては、例えば、 HMM (Hidden Markov Model) などを用いることができる。辞書データベース 5 2は、認識対象の各単語（語句）について、その発音に関する情報が記述された単語辞書や、音韻や音節の連鎖関係を記述したモデルを記憶している。

なお、ここにおける単語とは、認識処理において 1つのまとまりとして扱ったほうが都合の良い単位のことであり、言語学的な単語とは必ずしも一致しない。例えば、「タロウ君」は、それ全体を 1単語として扱ってもよいし、「タロウ」、「君」という 2単語として扱ってもよい。さらに、もっと大きな単位である「こんにちはタロウ君」等を 1単語として扱ってもよい。

また、音節とは、音響的に 1つの単位として扱った方が処理上都合のよいもののことであり、音声学的な音節とは必ずしも一致しない。例えば、「東京」の

「とう」の部分を "ト /ゥ" という 2個の音節記号で表してもよいし、 "ト" の長音である "ト：" という記号を用いて "ト：" と表してもよい。他にも、無音を表す記号を用意してもよく、さらにそれを「発話前の無音」、「発話に挟まれた短い無音区間」、「発話語の無音」、「「つ」の部分の無音」のように細かく分類してそれぞれに記号を用意してもよい。

言語モデルデータベース 5 3は、辞書データベース 5 2の単語辞書に登録されている各単語がどのように連鎖する（接続する）かどうかに関する情報を記述している。

音節タイプライタ部 4 5は、特徴量抽出部 4 3から供給された特徴パラメータに基づいて、入力された音声に対応する音節系列を取得し、マッチング部 4 4に出力するとともに、ネットワーク生成部 4 7にも出力する。例えば、「私の名前は小川です。」という音声から "ヮ /タン /ノ /ナ /マ/ェ /ハ /ォ /ガ /ヮ /デ /ス" という音節系列を取得する。この音節タイプライタには、既存のものを用いることができる。

なお、音節タイプライタ以外でも、任意の音声に対して音節系列を取得できるものであれば代わりに用いることができる。例えば、日本語の音韻

(a/i/u/e/o/k/a/k/i ) を単位とする音声認識や、音素、その他の、単語よりは小さな単位であるサブワードを単位とする音声認識を用いることが可能である。

制御部 4 6は、 0変換部4 2、特徴量抽出部 4 3、マッチング部 4 4、音節タイプライタ部 4 5の動作を制御する。

ネットワーク生成部 4 7は、単語列と、音節タイプライタ部 4 5から取得される音節系列に基づくサブワード系列（音節系列）に基づいて、単語と音節とのネットワークを生成する。すなわち、く 00V>の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および、く oov>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスを生成し、マッチング部 4 4に出力する。

次に、図 9のフローチャートを参照して、本発明の対話システムの処理について説明する。

ステップ S 2 1において、ユーザがマイクロホン 4 1に音声を入力すると、マイク口ホン 4 1は、その発話を、電気信号としての音声信号に変換する。そして、ステップ S 2 2において、音声認識部 1は、音声認識処理を実行する。

音声認識処理の詳細について、図 1 0を参照して説明する。マイクロホン 4 1 で生成された音声信号は、ステップ S 5 1において、 AD変換部 4 2により、デイジタル信号である音声データに変換され、特徴量抽出部 4 3に供給される。ステップ S 5 2において、特徴量抽出部 4 3は、 AD変換部 4 2からの音声データを受信する。そして、特徴量抽出部 4 3は、ステップ S 5 3に進み、適当なフレームごとに、例えば、スぺクトル、パワー、それらの時間変化量等の特徴パラメータを抽出し、マッチング部 4 4に供給する。

ステップ S 5 4において、マッチング部 4 4は、辞書データベース 5 2に格納されている単語モデルのうちのいくつかを連結して、単語列生成処理を実行する。なお、この単語列を構成する単語には、辞書データベース 5 2に登録されている既知語だけでなく、登録されていない未知語を表わすシンボルである "く 00V> " も含まれている。この単語列生成処理について、図 1 1を参照して詳細に説明する。

ステップ S 8 1において、マッチング部 4 4は、入力音声の或る区間について、両方の場合の音響スコアを計算する。即ち、入力音声の或る区間を、辞書データベース 5 2に登録されている既知語とマッチングさせた結果の音響スコアと、入力音声に基づき、音節タイプライタ部 4 5により得られた結果（今の場合、ヮ / タ /シ /ノ /ナ /マ/ェ /ハ /ォ /ガ /ヮ /デ /ス〃の中の一部区間）の音響スコアが、それぞれ計算される。音響スコアは、音声認識結果の候補である単語列と入力音声とが音としてどれだけ近いかを表す。

次に、入力音声の一部区間と辞書データベース 5 2に登録されている既知語とをマッチングさせた結果の音響スコアと、音節タイプライタ部 4 5による結果の音響スコアを比較させるのであるが、既知語とのマッチングは単語単位で行われ、音節タイプライタ部 4 5でのマッチングは音節単位で行われ、尺度が異なっているので、そのままでは比較することが困難である（一般的には、音節単位の音響スコアの方が大きな値となる）。そこで、尺度を合わせて比較できるようにするために、マッチング部 4 4は、ステップ S 8 2において、音節タイプライタ部 4 5により得られた結果の音響スコアに捕正をかける。

例えば、音節タイプライタ部 4 5からの音響スコアに係数を掛けたり、一定の値やフレーム長に比例した値などを減じたりする処理が行われる。勿論、この処理は相対的なものなので、既知語とマッチングさせた結果の音響スコアに対して行うこともできる。なお、この処理の詳細は、例えば、文献「"EUR0SPEECH99 Volume 丄， Page 49 - 52 」に「00V - Detect ion in Large Vocabulary System Using Automat ical ly Def ined Word-Fragments as Fi l l ersJ として開示されている。

マッチング部 4 4は、ステップ S 8 3において、この 2つの音響スコアを比較する（音節タイプライタ部 4 5で認識させた結果の音響スコアの方が高い（優れている）か否かを判定する）。音節タイプライタ部 4 5で認識させた結果の音響スコアの方が高い場合、ステップ S 8 4に進み、マッチング部 4 4は、その区間をく 00V> (Out Of Vocabulary) (未知語）であると推定する。

ステップ S 8 3において、既知語とマッチングさせた結果の音響スコアに対して、音節タイプライタ部 4 5で認識された結果の音響スコアの方が低いと判定された場合、ステップ S 8 6に進み、マッチング部 4 4は、その区間を既知語であると推定する。

即ち、例えば、「オガワ」に相当する区間について、音節タイプライタ部 4 5 の出力した "ォ /ガ /ヮ" の音響スコアと、既知語でマッチングさせた場合の音響スコアを比較して、 "ォ /ガ /ヮ" の音響スコアの方が高い場合は、その音声区間に相当する単語として「く oov> (ォ /ガ /ヮ）」が出力され、既知語の音響スコアの方が高い場合は、その既知語が音声区間に相当する単語として出力される。ステップ S 8 5において、マッチング部 4 4は、音響スコアが高くなると推測される単語列（いくつかの単語モデルを連結したもの）を優先的に n個生成する。図 1 0に戻って、ステップ S 5 5において、音節タイプライタ部 4 5はステツプ S 5 4の処理とは独立して、ステップ S 5 3の処理で抽出された特徴パラメ一タに対して音韻を単位とする認識を行ない、音節系列を出力する。例えば、「私の名前は小川（未知語）です。」という音声が入力されると、音節タイプライタ部 4 5は、 "ヮ /タ /シ /ノ /ナ /マ/ェ /八/ォ /ガ /ヮ /デ /ス" という音節系列を出力する。

ステップ S 5 6において、マッチング部 4 4は、ステップ S 5 4で生成された単語列ごとに音響スコアを計算する。 <oov> (未知語）を含まない単語列に対しては既存の方法、すなわち各単語列（単語モデルを連結したもの）に対して音声の特徴パラメータを入力することで尤度を計算するという方法が用いられる。一方、く oov>を含む単語列については、既存の方法ではく oov>に相当する音声区間の音響スコアを求めることができない（く 00V>に対応する単語モデルは事前には存在しないため）。そこで、その音声区間については、音節タイプライタの認識結果の中から同区間の音響スコアを取り出し、その値に捕正をかけたものがく oov>の音響スコアとして採用される。それは、さらに、他の既知語部分の音響スコアと統合され、それがその単語列の音響スコアとされる。

ステップ S 5 7において、マッチング部 4 4は、音響スコアの高い単語列を上位 m個（m≤n ) 抽出し、候捕単語列とする。ステップ S 5 8において、マッチング部 4 4は、言語モデルデータベース 5 3を参照して、候補単語列毎に、言語スコアを計算する。言語スコアは、認識結果の候補である単語列が言葉としてどれだけふさわしいかを表す。ここで、この言語スコアを計算する方法を詳細に説明する。

本発明の音声認識部 1は未知語も認識するため、言語モデルは未知語に対応している必要がある。例として、未知語に対応した文法または有限状態オートマトン（FSA : Finite State Automaton) を用いた場合と、同じく未知語に対応した tri-grara (統計言語モデルの 1つである）を用いた場合とについて説明する。文法の例を図 1 2を参照して説明する。この文法 6 1は BNF (Backus Naur Form)で記述されている。図 1 2において、 " $ A " は「変数」を表し、 " A | B " は「Aまたは B」という意味を表す。また、 " [ A] " は「Aは省略可能」という意味を表し、 { A } は「Aを 0回以上繰り返す」という意味を表す。

く 00VMま未知語を表すシンポルであり、文法中にく 00V>を記述しておくことで、未知語を含む単語列に対しても対処することができる。 " $ ACTI0N" は図 1 2 では定義されていないが、例えば、「起立」、「着席」、「お辞儀」、「挨梭」等の動作の名前が定義される。

この文法 6 1では、「<先頭 > /こんにちは/く終端 >」（ "/" は単語間の区切り）、「<先頭 > /さようなら/く終端〉」、「く先頭 > /私/の/名前/は

/く 00VVです/く終端 >」のように、データベースに記憶されている文法に当てはまる単語列は受理される（この文法で解析される） 1S 「<先頭 >/君/の

/〈00V〉/名前/ <終端 >」といった、データベースに記憶されている文法に当てはまらない単語列は受理されない（この文法で解析されない）。なお、「<先頭 >」と「<終端 >」はそれぞれ発話前と後の無音を表す特殊なシンボルである。この文法を用いて言語スコアを計算するために、パーザ（解析機）が用いられる。パーザは、単語列を、文法を受理できる単語列と、受理できない単語列に分ける。即ち、例えば、受理できる単語列には言語スコア 1が与えられて、受理できない単語列には言語スコア 0が与えられる。

したがって、例えば、「く先頭〉/私/の/名前/は/く 00V〉 (タ /口/ゥ） /です/ く終端 >」と、「く先頭 >/私/の/名前/は/く 00V> (ジ /口/ゥ） /です/く終端 >」という 2つの単語列があった場合、いずれも「<先頭 >/私/の/名前/は

/く 00V〉/です/く終端〉」に置き換えられた上で言語スコアが計算されて、ともに言語スコア 1 (受理）が出力される。

また、単語列の文法が受理できるか否かの判定は、事前に文法を等価（近似でも良い）な有限状態オートマトン（以下、 FSAと称する）に変換しておき、各単語列がその FSAで受理できるか否かを判定することによっても実現できる。

図 1 2の文法を等価な FSAに変換した例が、図 1 3に示されている。 FSAは状態（ノード）とパス（アーク）とからなる有向グラフである。図 1 3に示されるように、 S 1は開始状態、 S 1 6は終了状態である。また、 " $ ACTI0N" には、図 1 2と同様に、実際には動作の名前が登録されている。

パスには単語が付与されていて、所定の状態から次の状態に遷移する場合、パスはこの単語を消費する。ただし、 " ε " が付与されているパスは、単語を消費しない特別な遷移（以下、 ε遷移と称する）である。即ち、例えば、「<先頭〉/私/は/く 00V>/です/く終端 >」においては、初期状態 S 1から状態 S 2に遷移して、 <先頭 >が消費され、状態 S 2から状態 S 3へ遷移して、「私」が消費されるが、状態 S 3から状態 S 5への遷移は、 ε遷移なので、単語は消費されない。即ち、状態 S 3から状態 S 5ヘスキップして、次の状態 S 6へ遷移することができる。

所定の単語列がこの FSA で受理できるか否かは、初期状態 S 1から出発して、終了状態 S 1 6まで到達できるか否かで判定される。

即ち、例えば、「く先頭〉/私/の/名前/は/く 00V〉/です/く終端 >」においては、初期状態 S 1から状態 S 2へ遷移して、単語「<先頭 > j が消費される。次に、状態 S 2から状態 S 3へ遷移して、単語「私」が消費される。以下、同様に、状態 S 3から状態 S 4へ、状態 S 4から状態 S 5へ、状態 S 5から状態 S 6へ、状態 S 6から状態 S 7へ順次遷移して、「の」、「名前」、「は」、「く 00V〉」、が次々に消費される。さらに、状態 S 7から状態 S 1 5へ遷移して、「です」力 S 消費され、状態 S 1 5から状態 S 1 6に遷移して、「く終端〉」が消費され、結局、終了状態 S 1 6へ到達する。したがって、「く先頭 >/私/の/名前/は

/く 00V>/です/く終端 >」は FSAで受理される。

しかしながら、「く先頭 > /君/のバ 00V>/名前/く終端 >」は、状態 S 1から状態 S 2へ、状態 S 2から状態 S 8へ、状態 S 8から状態 S 9までは遷移して、「く先頭〉」、「君」、「の」までは消費されるが、その先には遷移できないので、終了状態 S 1 6へ到達することはできない。したがって、「く先頭〉/君/ の/く 00V>/名前/ <終端 >」は、 FSAで受理されない（不受理）。

さらに、言語モデルとして、統計言語モデルの 1つである tri- gramを用いた場合の言語スコアを計算する例を、図 1 4を参照して説明する。統計言語モデル 'とは、その単語列の生成確率を求めて、それを言語スコアとする言語モデルである。即ち、例えば、図 1 4の言語モデル 7 1の「く先頭 > /私/の/名前/は

/く 00V>/です/ <終端〉」の言語スコアは、第 2行に示されるように、その単語列の生成確率で表される。これはさらに、第 3行乃至第 6行で示されるように、条件付き確率の積として表される。なお、例えば、「P (の | <先頭 > 私） j は、「の」の直前の単語が「私」で、「私」の直前の単語が「<先頭 >」であるという条件の下で、「の」が出現する確率を表す。

さらに、 tri- gramでは、図 1 4の第 3行乃至第 6行で示される式を、第 7行乃至第 9行で示されるように、連続する 3単語の条件付き確率で近似させる。これらの確率値は、図 1 5に示されるような tri- graraデータベース 8 1を参照して求められる。この tri-gramデータベース 8 1は、予め大量のテキストを分析して求められたものである。

図 1 5の例では、 3つの連続する単語 w l， w 2 , w 3の確率 P ( 3 | w 1 w 2 ) が表されている。例えば、 3つの単語 w l.， w 2 , w 3力それぞれ、「く先頭 >」、「私」、「の」である場合、確率値は 0 . 1 2とされ、「私」、

「の」、「名前」である場合、確率値は 0 . 0 1とされ、「〈oov〉」、「です」、「く終端 >」である場合、確率値は、 0 . 8 7とされている。

勿論、「P (W) 」及び「P (w 2 I w l ) 」についても、同様に、予め求めておく。

このようにして、言語モデル中にく 00V こついて、エントリ処理をしておくことで、く oov>を含む単語列に対して、言語スコアを計算することができる。したがって、認識結果にく oov>というシンボルを出力することができる。また、他の種類の言語モデルを用いる場合も、く 00VMこついてのエントリ処理をすることによって、同様にく 00V>を含む単語列に対して、言語スコアを計算することができる。

さらに、く oov>のエントリが存在しない言語モデルを用いた場合でも、く oov> を言語モデル中の適切な単語にマッピングする機構を用いることで、言語スコアの計算ができる。例えば、「P (く 00V> I私は）」が存在しない tri_gramデータベースを用いた場合でも、「P (小川 I私は）」でデータベースをアクセスして、そこに記述されている確率を「P (く 00V〉 I私は）」の値とみなすことで、言語スコアの計算ができる。

図 1 0に戻って、マッチング部 4 4は、ステップ S 5 9において、音響スコアと言語スコアを統合する。ステップ S 6 0において、マッチング部 4 4は、ステップ S 5 9において求められた音響スコアと言語スコアの両スコアを統合したスコアに基づいて、最もよいスコアをもつ候捕単語列を選択して、認識結果として出力する。

なお、言語モデルとして、有限状態オートマトンを使用している場合は、ステップ S 5 9の統合処理を、言語スコアが 0の場合は単語列を消去し、言語スコアが 0以外の場合はそのまま残すという処理にしてもよい。

図 9に戻って、以上のようにしてステップ S 2 2で音声認識処理が実行された後、ステップ S 2 3において、音声認識部 1の制御部 4 6は認識された単語列に未知語が含まれているか否かを判定する。ステップ S 2 3において未知語が含まれていると判定された場合、ネットワーク生成部 4 7は、単語列と、音節タイプライタ部 4 5から取得される音節系列に基づくサブワード系列に基づいて、単語とサブワード (例えば、音節) とのネットワークを生成する。すなわち、 <00V> の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および、く 00V>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスが生成され、マッチング部 4 4に出力される。

ステップ S 2 5において、マッチング部 4 4は、音節タイプライタ部 4 5から供給された音節系列に基づくサブワード系列と、ネットワーク生成部 4 7から供給されたネットワークに基づいて、ユーザから入力された音声とネットワークをマッチングする。

図 1 6は、ネットワークの生成について説明する。

例えば、ユーザから「私の名前は小川（未知語）です。」という音声がマイク口ホン 4 1に入力されたとする。マッチング部 4 4は、求められた音響スコアと言語スコアの両スコアを統合したスコアに基づいて、最もよいスコアをもつ候補単語列を選択して、認識結果として出力し、例えば、図 1 6 A に示されるように、「く先頭〉/私/の/名前/は/く 00V〉/です/く終端〉」となるとする。同時に、音節タイプライタ部 4 5は、図 1 6 Bに示されるように、 "ヮ /タ /シ /ノ /ナ /マ/ェ /ハ /ォ /ガ /ヮ /デ /ス" という音節系列を出力するとする。

このとき、図 1 6 Aと図 1 6 Bに示されるように、マッチング部 4 4により得られた認識結果である単語列の境界と、音節タイプライタ部 4 5により得られた音節系列に基づくサブワード系列の境界は一般的には一致しない。例えば、図 1 6 Aと図 1 6 Bの場合、単語列における単語「は」と単語「く 00V〉」の境界は、サブワード系列における音節「ハ」に対応し、単語列における単語「く oov〉」と単語「です」の境界は、サブワード系列における音節「ヮ」に対応する。そのため、単語列における単語「は」と単語「く oov>」の境界とサブワード系列における音節「ハ」の部分における不一致の場合、音節「ハ」は、単語列における単語「は」に含まれたり、単語列における単語「く 00V>」に含まれたりする。

そこで、単語と音節とのネットワークが生成される。すなわち、く oov〉の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、およびく oov> の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスが生成される。

例えば、図 1 6 Bと図 1 6 Cに示されるように、特徴抽出部 4 3から出力された時刻情報の特徴パラメータに基づいて、サブワード系列における音節「ハ」と音節「ヮ」の所定のフレームに対応する音節タイプライタ部 4 5における音節タイブライタ時刻を、それぞれ、 t₀ととし、その音節タイプライタ時刻 t₀と t l に対応する単語列の時刻を、それぞれ、と t₃とする。また、図 1 6 Cに示されるように、図 1 6の区間!)、すなわち、く 00V>の直前の単語「は」からく 00V> の直後の単語「です」までの区間は、く 00V>の発音に対応する可能性のある音節「ハ」「ォ」「ガ」「ヮ」により構成されている。

図 1 6 Cに示されるように、単語列における単語「は」と単語「く 00V>」の境界に対応する部分において、音節「ハ」を含まないパス 9 1、並びに、音節「ハ」を含むパス 9 2およびパス 9 3が生成され、単語列における単語「く 00V〉」と単語「です」の境界に対応する部分において、音節「ヮ」を含まないパス 1 0 1、並びに、音節「ヮ」を含むパス 1 0 2およびパス 1 0 3が生成される。これにより、サブワード系列の境界を決定することなく、入力された音声に対して最適なネットワーク上のサブヮード系列を選択することができる。なお、図 1 6の場合においては、ネットワークとして構成された単語と音節からなるネットワークと入力された音声とをマッチングすると、上記ネットワークから以下の 4通りの文仮説が生成される。

私の-名前-は -ハ-ォ-ガ-ヮ-です

私の -名前-は-ハ-ォ-ガ -です

私の-名前-は-ォ-ガ -ヮ-です

私の-名前-は-ォ-ガ -です

図 9に戻って、ステップ S 2 6において、マッチング部 4 4は、ユーザから入力された音声とネットワークのマッチングの結果に基づいて、スコアの高いネットワーク上のパス（例えば、図 1 6におけるパス 9 1、並びに、パス 1 0 2およびパス 1 0 3 ) を選択する。ステップ S 2 7において、マッチング部 4 4は、ステツプ S 2 6において選択されたネットワーク上のパス（例えば、図 1 6におけるパス 9 1、並びに、パス 1 0 2およびパス 1 0 3 ) と音節タイプライタ部 4 5 から出力されたサブワード系列に基づいて、く 00V こ対応する発音（図 1 6の例の場合、「ォ /ガ /ヮ」）を取得する。図 1 7と図 1 8は、本発明を適用した実験結果を示す。なお、条件設定については、図 3における設定と同様であるので、その説明は省略する。

図 1 7は、それぞれ、本宪明を適用した場合の音節系列の認識精度、置換誤り、削除誤り、および挿入誤りの性能を示しており、それぞれの値は、百分率で表されている。それらの詳しい説明については、図 4と同様であるので、省略する。図 1 7の結果では、認識精度は、 48. 5%であり、図 4での、サブワード系列によるく 00V>発音取得方法における認識精度の 40. 2%と比較すると、認識精度は向上している。また、削除誤りと揷入誤りの発生率は、それぞれ、 11. 6%と 8. 0%であり、図 4での、サブワード系列による〈00V〉発音取得方法における削除誤りと揷入誤りの発生率の 33. 3%と 4. 1%とを比較すると、削除誤りと揷入誤りの発生バランスは改善されている（両者の差が少なくなつている）。

図 1 8は、 1人の話者の発話に対して本発明によりく 00V>に付与された認識結果の一部の例を示している。

図 1 8の例では、第 1回目で、「クロサキ j 力 S 「クロタチ j と認識されており、「タ」と「チ」において置換誤りが発生している。また、第 2回目では「クロサキ」は「ォロサ」と認識されており、「ク」において削除誤りが、「ォ」において置換誤りが発生している。さらに、第 3回目では、「クロサキ」は「口サキ J と認識されており、「ク」において削除誤りが発生している。また、第 4回目では、「クロサキ」は「口サキ」と認識されており、「ク」において削除誤りが発生している。「クロサキ」はまた、第 5回目では「クロサキ」と認識されており、どの誤りも発生していない。

「カズミ」は第 1回目では、「カズミ j と認識されており、どの誤りも発生していない。例えば、第 2回目では、「カズミ」は「カツ二」と認識されており、「ズ」と「ミ」において置換誤りが発生している。第 3回目では、「カズミ」は「カズミ」と認識されており、どの誤りも発生していない。第 4回目では、「力ズミ」は「カツミ」と認識されており、「ズ」において置換誤りが発生している。第 5回目では、「カズミ」は「カスミ」と認識されており、「ズ」において置換誤りが発生している。

図 9に戻って、制御部 4 6は、単語獲得部 4を制御し、ステップ S 2 8において、単語獲得処理を実行させ、その未知語を獲得させる。

単語獲得処理の詳細について、図 1 9を参照して説明する。ステップ S 1 1 1 において、単語獲得部 4は、音声認識部 1から未知語 «00V» の特徴パラメ一タ、特に、時間情報に関する特徴パラメータを抽出する。ステップ S 1 1 2において、単語獲得部 4は、未知語が既獲得のクラスタに属するか否かを判定する。既獲得のクラスタに属さないと判定された場合、単語獲得部 4は、ステップ S 1 1 3において、その未知語に対応する、新しいクラスタを生成する。そして、ステツプ S 1 1 4において、単語獲得部 4は、未知語の属するクラスタの I Dを音声認識部 1のマッチング部 4 4に出力する。

ステップ S 1 1 2において、未知語が既獲得のクラスタに属すると判定された場合、新しいクラスタを生成する必要がないので、単語獲得部 4はステップ S 1 1 3の処理をスキップして、ステップ S 1 1 4に進み、未知語の属する既獲得のクラスタの I Dをマッチング部 4 4に出力する。

なお、図 1 9の処理は各未知語語毎に行われる。

図 9に戻って、ステップ S 2 8の単語獲得処理終了後、ステップ S 2 9において、対話制御部 3は、'ステップ S 2 8の処理で獲得された単語列が、テンプレートにマッチしているかどうかを判定する。即ち、認識結果の単語列が何かの名前の登録を意味するものかどうかの判定がここで行われる。そして、ステップ S 2 9において、認識結果の単語列がテンプレートにマッチしていると判定された場合、ステップ S 3 0において、対話制御部 3は、連想記憶部 2に、名前のクラスタ I Dとカテゴリを対応させて記憶させる。

対話制御部 3がマッチングさせるテンプレートの例を図 2 0を参照して説明する。なお、図 2 0において、 "/ΑΓ は「文字列 Αが含まれていたら」という意味を表し、 " A I B " は「Aまたは B」という意味を表す。また、 "ノ' は「任意の文字」を表し、 " A + " は「Aの 1回以上の繰り返し」という意味を表し、 "（.）+ " は「任意の文字列」を表す。

このテンプレート 1 2 1は、認識結果の単語列が図の左側の正規表現にマッチした場合、図の右側の動作を実行させることを表している。例えば、認識結果が「く先頭〉/私/の/名前/は/く 00V> (ォ /ガ /ヮ） /です/く終端 >」という単語列である場合、この認識結果から生成された文字列「私の名前はく 00V>です」は、図 2 0の第 2番目の正規表現にマッチする。したがって、対応する動作である「く 00V>に対応するクラスタ I Dをユーザ名として登録する」処理が実行される。即ち、「く 00V> (ォ /ガ /ヮ）」のクラスタ I Dが「1」である場合、図 5に示されるように、クラスタ I D 「1」のカテゴリ名が「ユーザ名」として登録される。

また、例えば、認識結果が、「く先頭〉/君/の/名前/はバ oov〉（ァ /ィ /ボ） I だよ/ <終端 >」である場合、そこから生成される文字列「君の名前はく oov〉だよ」は図 2 0の第 1番目の正規表現にマッチするので、「く 00V> (ァ /ィ /ポ） J 力 S クラスタ I D 「2」であれば、クラスタ I D 「2」のカテゴリは、「キャラクタ名」として登録される。

なお、対話システムによっては、登録する単語が 1種類しかない（例えば、「ユーザ名」のみ）場合もあり、その場合は、テンプレート 1 2 1と連想記憶部 2は簡略化することができる。例えば、テンプレート 1 2 1の内容を「認識結果にく 00V〉が含まれていたら、その I Dを記憶する」として、連想記憶部 2にそのクラスタ I Dのみを記憶させることができる。 . 対話制御部 3は、このようにして連想記憶部 2に登録された情報を、以後の対話の判断処理に反映させる。例えば、対話システムの側で、「ユーザの発話の中に、対話キャラクタの名前が含まれているかどうかを判定する。含まれている場合は『呼びかけられた』と判断して、それに応じた返事をする」という処理や、「対話キャラクタがユーザの名前をしゃべる」という処理が必要になった場合に、対話制御部 3は連想記憶部 2の情報を参照することで、対話キャラクタに相当する単語（カテゴリ名が「キャラクタ名」であるエントリ）やユーザ名に相当する単語（カテゴリ名が「ユーザ名」であるエントリ）を得ることができる。

一方、ステップ S 2 3において、認識結果に未知語が含まれていないと判定された場合、またはステップ S 2 9において、認識結果がテンプレートにマッチしていないと判定された場合、ステップ S 3 1において、対話制御部 3は、入力音声に対応する応答を生成する。すなわち、この場合には、名前（未知語）の登録処理は行われず、ユーザからの入力音声に対応する所定の処理が実行される。

ところで、言語モデルとして文法を用いる場合、文法の中に音節タイプライタ相当の記述も組み込むことができる。この場合の文法の例が図 2 1に示されている。この文法 1 3 1において、第 1行目の変数 " $ SYLLABLE" は、全ての音節が「または」を意味する Ί " で繋がれているので、音節記号の内のどれか 1つを意味する。変数" 00V"は " $ SYLLABLE" を 0回以上繰り返すことを表している。即ち、「任意の音節記号を 0回以上接続したもの」を意味し、音節タイプライタに相当する。したがって、第 3行目の「は」と「です」の間の " $ 00V" は、任意の発音を受け付けることができる。

この文法 1 3 1を用いた場合の認識結果では、 " $ 00V" に相当する部分が複数のシンボルで出力される。例えば、「私の名前は小川です」の認識結果が「< 先頭〉/私/の/名前/は/ォ /ガ /ヮ /です/く終端〉」となる。この結果を「<先頭

〉/私/の/名前/は/く 00V〉（ォ /ガ /ヮ） /です」に変換すると、図 9のステップ S 2 3以降の処理は、音節タイプライタを用いた場合と同様に実行することができる。

なお、以上においては、未知語に関連する情報として、カテゴリを登録するようにしたが、その他の情報を登録するようにしてもよい。また、図 9のフローチヤートにおけるステップ S 2 8は、省略してもよく、ステップ S 2 8が省略された場合には、ステップ S 3 0における処理は、対話制御部 3が連想記憶部 2にサプヮード系列とカテゴリを対応させて記憶させるという処理になる。

さらに、以上の実施の形態においては、図 1 6 Cに示されるように、音節と単語のネットワークを形成するようにしたが、入力音声に対して尤度が最大となる最適なネットワーク上のサブヮード系列を選択することができればよいので、音節に限らず、音素、音韻等の、音節以外のサブワードと単語とのネットワークとすることができる。

図 2 2は、上述の処理を実行するパーソナルコンピュータ 1 5 0の構成例を示している。このハ。ーソナノレコンピュータ 1 5 0は、 CPU (Central Process ing Uni t) 1 5 1を内蔵している。 CPU 1 5 1にはバス 1 5 4を介して、入出力インタフエース 1 5 5が接続されている。ノス 1 5 4には、 R0M (Read Only Memory) 1 5 2および RAM (Random Access Memory) 1 5 3が接続されている。

入出力インタフェース 1 5 5には、ユーザが操作するマウス、キーボード、マイク口ホン、 AD変換器等の入力デバイスで構成される入力部 1 5 7、およぴデイスプレイ、スピーカ、 DA変換器等の出力デバイスで構成される出力部 1 5 6 が接続されている。さらに、入出力インタフェース 1 5 5には、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部 1 5 8、並びにインタネットに代表されるネットワークを介してデータを通信する通信部 1 5 9 が接続されている。

入出力インタフェース 1 5 5には、磁気ディスク 1 7 1、光ディスク 1 7 2、光磁気ディスク 1 7 3、半導体メモリ 1 7 4などの記録媒体に対してデータを読み書きするドライブ 1 6 0が必要に応じて接続される。

このパーソナルコンピュータ 1 5 0に本発明を適用した音声処理装置としての動作を実行させる音声処理プログラムは、磁気ディスク 1 7 1 (フロッピデイスクを含む）、光ディスク 1 7 2 (CD-ROM (Compact Di sc-Read Only Memory)、 DVD (Digital Versati le Di sc)を含む）、光磁気ディスク 1 7 3 (MD (Mini Disc)を含む）、もしくは半導体メモリ 1 7 4に格納された状態でパーソナルコンピュータ 1 5 0に供給され、ドライブ 1 6 0によって読み出されて、記憶部 1 5 8に内蔵されるハードディスクドライブにインストーノレされる。記憶部 1 5 8 にインストールされた音声処理プログラムは、入力部 1 5 7に入力されるユーザからのコマンドに対応する CPU 1 5 1の指令によって、記憶部 1 5 8から RAM I 5 3に口一ドされて実行される。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードゥエァに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からィンストールされる。

この記録媒体は、図 2 2に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディス 1 7 1、光ディスク 1 7 2、光磁気ディスク 1 7 3、もしくは半導体メモリ 1 7 4 などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されている R0M 1 5 2や、記憶部 1 5 8に含まれるハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステツプは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置が論理的に集合したものをいい、各構成の装置が同一筐体中にあるか否かは問わない。産業上の利用可能性

以上のように、本発明によれば、単語を音声で登録することができる。またその登録を、ユーザに登録モードを意識させることなく実行できる。さらに、既知語と未知語を含む連続する入力音声の中から未知語を抽出し、その未知語の発音を取得し、未知語の単語を確実に獲得することができる。これにより、その未知語を容易に登録することが可能となる。さらに、登録した単語を、以降の対話で反映させることが可能となる。また、本発明によれば、音声認識の認識率を向上させることができる。さらに、未知語の獲得の際における削除誤りを少なくすることができ、削除誤りと揷入誤りの発生バランスを良くすることができる。これにより、ユーザが連続音声認識システムをもつロボットなどを賢くないと感じることを抑制することができる。

Claims

請求の範囲

1 . 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置であって、

連続する前記入力音声を認識する認識手段と、

前記認識手段により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、

前記未知語判定手段において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットヮーク生成手段と、

前記未知語判定手段により、前記未知語が含まれていると判定された場合、前記未知語に対応する単語を獲得する獲得手段と、

前記獲得手段により獲得された前記単語を他の情報に関連付けて登録する登録手段と

を備えることを特徴とする音声処理装置。

2 . 前記認識結果が特定のパターンにマッチするか否かを判定するパターン判定手段をさらに備え、

前記登録手段は、前記パターン判定手段により、前記認識結果が特定のパターンにマッチしていると判定された場合、前記単語を登録する

ことを特徴とする請求の範囲第 1項に記載の音声処理装置。

3 . 前記未知語判定手段により、前記未知語が含まれていないと判定された場合、または、前記パターン判定手段により、前記認識結果が特定のパターンにマツチしていないと判定された場合、前記入力音声に対応する応答を生成する応答生成手段をさらに備える

ことを特徴とする請求の範囲第 2項に記載の音声処理装置。

4 . 前記登録手段は、前記他の情報として、カテゴリに関連付けて前記単語を登録することを特徴とする請求の範囲第 2項に記載の音声処理装置。

5 . 前記登録手段は、前記パターン判定手段によりマッチすると判定された前記パターンに関連付けて、前記他の情報を登録する

6 . 前記獲得手段は、前記未知語をクラスタリングすることで前記単語を獲得する

7 . 前記ネットワーク生成手段により生成された前記ネットワークは、前記単語と音節とのネットワークである

8 . 前記入力音声と前記ネットワークとのマッチングに基づいて、前記ネットワーク上のスコアの高いパスを選択する選択手段と、

前記選択手段により選択された前記パスを含む前記ネットワークに基づいて、前記未知語に対応する発音を取得する発音取得手段と

をさらに備えることを特徴とする請求の範囲第 7項に記載の音声処理装置。

9 . 前記入力音声の所定の区間について、既知語でマッチングさせた場合と音節タイプライタで認識させた場合の音響スコァを比較する比較手段をさらに備え、前記比較手段は、前記音節タイプライタで認識させた前記音響スコァの方が優れている場合、その区間を未知語であると推定する

1 0 . 前記比較手段は、前記既知語でマッチングさせた場合の音響スコアに対して、前記音節タイプライタで認識させた場合の音響スコァに補正をかけた上で比較を行う

ことを特徴とする請求の範囲第 9項に記載の音声処理装置。

1 1 . 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置の音声処理方法において、

連続する前記入力音声を認識する認識ステップと、前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、

前記判定ステップの処理において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサブヮードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットヮーク生成ステップと、

前記判定ステップの処理により、前記未知語が含まれていると判定された場合、前記未知語に対応する単語を獲得する獲得ステツプと、

前記獲得ステップの処理により獲得された前記単語を他の情報に関連付けて登録する登録ステップと

を含むことを特徴とする音声処理方法。

1 2 . 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置のプログラムであって、

連続する前記入力音声を認識する認識ステップと、

前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、

前記判定ステップの処理において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサプヮ一ドを含むパスと、そのサブヮードを含まないパスを有するネットワークを生成するネットヮーク生成ステップと、

前記判定ステップの処理により、前記未知語が含まれていると判定された場合、前記未知語に対応する単語を獲得する獲得ステップと、

を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。

1 3 . 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置のプログラムであって、

連続する前記入力音声を認識する認識ステップと、

前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステツプと、

前記判定ステップの処理において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサブヮードを含むパスと、そのサブヮードを含まないパスを有するネットワークを生成するネットヮーク生成ステップと、

をコンピュータに実行させることを特徴とするプログラム。