JP4048473B2

JP4048473B2 - 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体

Info

Publication number: JP4048473B2
Application number: JP2002072718A
Authority: JP
Inventors: 厚夫廣江
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2008-02-20
Anticipated expiration: 2022-03-15
Also published as: JP2003271180A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声処理装置および音声処理方法、並びにプログラムおよび記録媒体に関し、特に、連続して入力される音声信号を音声認識している最中に、その入力音声信号に含まれる未知語を抽出し、簡単に登録することができるようにした音声処理装置および音声処理方法、並びにプログラムおよび記録媒体に関する。
【０００２】
【従来の技術】
対話システムにおいて、何かの名前を音声で登録するという場面は、多く発生する。例えば、ユーザが自分の名前を登録したり、対話システムに名前をつけたり、地名や店名を入力したりするという場面である。
【０００３】
従来、このような音声登録を簡単に実現する方法としては、何かのコマンドによって登録モードに移行して、登録が終了したら通常の対話モードに戻るというものがある。この場合、例えば、「ユーザ名登録」という音声コマンドによって登録モードに移行して、その後でユーザが名前を発生したらそれが登録され、その後、通常モードに戻る処理が行われる。
【０００４】
【発明が解決しようとする課題】
しかしながら、このような音声登録の方法では、コマンドによるモード切換えをしなければならず、対話としては不自然であり、ユーザにとっては煩わしいという課題がある。また、名付ける対象が複数存在する場合、コマンドの数が増えるため、いっそう煩わしくなる。
【０００５】
さらに、登録モード中に、ユーザが名前以外の単語（例えば、「こんにちは」）を話してしまった場合、それも名前として登録されてしまう。また、例えば、「太郎」という名前だけではなく、「私の名前は太郎です。」といったように、ユーザが名前以外の言葉を付加して話した場合、全体（「私の名前は太郎です。」）が名前として登録されてしまう。
【０００６】
本発明はこのような状況に鑑みてなされたものであり、通常の対話の中で、ユーザに登録モードを意識させることなく、単語を登録できるようにすることを目的とする。
【０００７】
【課題を解決するための手段】
本発明の音声処理装置は、連続する入力音声を認識する認識手段と、認識手段により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、未知語判定手段により、未知語が含まれていると判定された場合、その未知語を獲得する獲得手段と、未知語判定手段により認識結果に未知語が含まれていると判定された場合、その認識結果が、未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定手段と、パターン判定手段により、認識結果がパターンにマッチしていると判定された場合、そのパターンにおいて未知語に対応付けられているカテゴリを、獲得手段により獲得された未知語に関連付けて登録する登録手段とを備え、認識手段は、入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、認識結果の候補と入力音声の音の近さを表す音響スコアを比較する比較手段を備え、比較手段は、音韻タイプライタで認識させた場合の音響スコアの方が優れている場合、その区間を未知語であると推定し、優れていない場合、その区間を既知語であると推定することを特徴とする。
【０００９】
未知語判定手段により、未知語が含まれていないと判定された場合、または、パターン判定手段により、認識結果がパターンにマッチしていないと判定された場合、入力音声に対応する応答を生成する応答生成手段をさらに備えることができる。
【００１２】
獲得手段は、未知語のクラスタを生成することで、その未知語を獲得することができる。
【００１４】
比較手段は、既知語でマッチングさせた場合の音響スコアに対して、音韻タイプライタで認識させた場合の音響スコアに補正をかけた上で比較を行うことができる。
認識手段は、認識結果の候補としての、推定された未知語または既知語を含む単語列を生成する単語列生成手段と、単語列生成手段により生成された単語列と入力音声の音の近さを表す音響スコアを計算する音響計算手段と、単語列生成手段により生成された単語列のふさわしさを表す言語スコアを計算する言語計算手段と、音響スコアと言語スコアに基づいて、単語列生成手段により生成された単語列から認識結果を選択する選択手段とをさらに備えることができる。
【００１５】
本発明の音声処理方法は、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、未知語判定ステップの処理により、未知語が含まれていると判定された場合、その未知語を獲得する獲得ステップと、未知語判定ステップの処理により認識結果に未知語が含まれていると判定された場合、その認識結果が、未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定ステップと、パターン判定ステップの処理により、認識結果がパターンにマッチしていると判定された場合、そのパターンにおいて未知語に対応付けられているカテゴリを、獲得ステップの処理により獲得された未知語に関連付けて登録する登録ステップとを含み、認識ステップは、入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、認識結果の候補と入力音声の音の近さを表す音響スコアを比較する比較ステップを含み、比較ステップの処理は、音韻タイプライタで認識させた場合の音響スコアの方が優れている場合、その区間を未知語であると推定し、優れていない場合、その区間を既知語であると推定することを特徴とする。
【００１６】
本発明の記録媒体のプログラムは、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、未知語判定ステップの処理により、未知語が含まれていると判定された場合、その未知語を獲得する獲得ステップと、未知語判定ステップの処理により認識結果に未知語が含まれていると判定された場合、その認識結果が、未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定ステップと、パターン判定ステップの処理により、認識結果がパターンにマッチしていると判定された場合、そのパターンにおいて未知語に対応付けられているカテゴリを、獲得ステップの処理により獲得された未知語に関連付けて登録する登録ステップとを含み、認識ステップは、入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、認識結果の候補と入力音声の音の近さを表す音響スコアを比較する比較ステップを含み、比較ステップの処理は、音韻タイプライタで認識させた場合の音響スコアの方が優れている場合、その区間を未知語であると推定し、優れていない場合、その区間を既知語であると推定することを特徴とする。
【００１７】
本発明のプログラムは、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、未知語判定ステップの処理により、未知語が含まれていると判定された場合、その未知語を獲得する獲得ステップと、未知語判定ステップの処理により認識結果に未知語が含まれていると判定された場合、その認識結果が、未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定ステップと、パターン判定ステップの処理により、認識結果がパターンにマッチしていると判定された場合、そのパターンにおいて未知語に対応付けられているカテゴリを、獲得ステップの処理により獲得された未知語に関連付けて登録する登録ステップとを含み、認識ステップは、入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、認識結果の候補と入力音声の音の近さを表す音響スコアを比較する比較ステップを含み、比較ステップの処理は、音韻タイプライタで認識させた場合の音響スコアの方が優れている場合、その区間を未知語であると推定し、優れていない場合、その区間を既知語であると推定することを特徴とする。
【００１８】
本発明においては、連続する入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、認識結果の候補と入力音声の音の近さを表す音響スコアが比較され、音韻タイプライタで認識させた場合の音響スコアの方が優れている場合、その区間が未知語であると推定され、優れていない場合、その区間が既知語であると推定される。そして、認識結果に未知語が含まれている場合、その未知語が獲得され、その認識結果が、未知語を含む単語列であるパターンにマッチするか否かが判定され、認識結果がパターンにマッチしていると判定された場合、そのパターンにおいて未知語に対応付けられているカテゴリが、未知語に関連付けて登録される。
【００１９】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して説明する。図１は、本発明を適用した対話システムの一実施形態の構成例を示している。
【００２０】
この対話システムは、ユーザ（人間）と音声により対話を行うシステムであり、例えば、音声が入力されると、その音声から名前が取り出され、登録されるようになっている。
【００２１】
即ち、音声認識部１には、ユーザからの発話に基づく音声信号が入力されるようになっており、音声認識部１は、入力された音声信号を認識し、その音声認識の結果としてのテキスト、その他付随する情報を、対話制御部３と単語獲得部４に必要に応じて出力する。
【００２２】
単語獲得部４は、音声認識部１が有する認識用辞書に登録されていない単語について、音響的特徴を自動的に記憶し、それ以降、その単語の音声を認識できるようにする。
【００２３】
即ち、単語獲得部４は、入力音声に対応する発音を音韻タイプライタによって求め、それをいくつかのクラスタに分類する。各クラスタはＩＤと代表音韻系列を持ち、ＩＤで管理される。このときのクラスタの状態を、図２を参照して説明する。
【００２４】
例えば、「あか」、「あお」、「みどり」という３回の入力音声があったとする。この場合、単語獲得部４は、３回の音声を、それぞれに対応した「あか」クラスタ２１、「あお」クラスタ２２、「みどり」クラスタ２３の、３つのクラスタに分類し、各クラスタには、代表となる音韻系列（図２の例の場合、"a/k/a, “a/o", “m/i/d/o/r/I"）とＩＤ（図２の例の場合、「１」、「２」、「３」）を付加する。
【００２５】
ここで再び、「あか」という音声が入力されると、対応するクラスタが既に存在するので、単語獲得部４は、入力音声を「あか」クラスタ２１に分類し、新しいクラスタは生成しない。これに対して、「くろ」という音声が入力された場合、対応するクラスタが存在しないので、単語獲得部４は、「くろ」に対応したクラスタ２４を新たに生成し、そのクラスタには、代表的な音韻系列（図２の例の場合、"k/u/r/o"）とＩＤ（図２の例の場合、「４」）を付加する。
【００２６】
したがって、入力音声が未獲得の語であるか否かは、新たなクラスタが生成されたかどうかによって判定できる。なお、このような単語獲得処理の詳細は、本出願人が先に提案した特願２００１−９７８４３号に開示されている。
【００２７】
連想記憶部２は、登録した名前（未知語）がユーザ名であるか、キャラクタ名であるかといったカテゴリ等の情報を記憶する。例えば、図３の例では、クラスタＩＤとカテゴリ名とが対応して記憶されている。図３の例の場合、例えば、クラスタＩＤ「１」、「３」、「４」は「ユーザ名」のカテゴリに対応され、クラスタＩＤ「２」は、「キャラクタ名」のカテゴリに対応されている。
【００２８】
対話制御部３は、音声認識部１の出力からユーザの発話の内容を理解し、その理解の結果に基づいて、名前（未知語）の登録を制御する。また、対話制御部３は、連想記憶部２に記憶されている登録済みの名前の情報に基づいて、登録済みの名前を認識できるように、それ以降の対話を制御する。
【００２９】
図４は、音声認識部１の構成例を示している。
【００３０】
ユーザの発話は、マイクロホン４１に入力され、マイクロホン４１では、その発話が、電気信号としての音声信号に変換される。この音声信号は、ＡＤ（Analog Digital）変換部４２に供給される。ＡＤ変換部４２は、マイクロホン４１からのアナログ信号である音声信号をサンプリングし、量子化し、ディジタル信号である音声データに変換する。この音声データは、特徴量抽出部４３に供給される。
【００３１】
特徴量抽出部４３は、ＡＤ変換部４２からの音声データについて、適当なフレームごとに、例えば、スペクトル、パワー線形予測係数、ケプストラム係数、線スペクトル対等の特徴パラメータを抽出し、マッチング部４４および音韻タイプライタ部４５に供給する。
【００３２】
マッチング部４４は、特徴量抽出部４３からの特徴パラメータに基づき、音響モデルデータベース５１、辞書データベース５２、および言語モデルデータベース５３を必要に応じて参照しながら、マイクロホン４１に入力された音声（入力音声）に最も近い単語列を求める。
【００３３】
音響モデルデータベース５１は、音声認識する音声の言語における個々の音韻や音節などの音響的な特徴を表す音響モデルを記憶している。音響モデルとしては、例えば、HMM（Hidden Markov Model）などを用いることができる。辞書データベース５２は、認識対象の各単語（語句）について、その発音に関する情報が記述された単語辞書や、音韻や音節の連鎖関係を記述したモデルを記憶している。
【００３４】
なお、ここにおける単語とは、認識処理において１つのまとまりとして扱ったほうが都合の良い単位のことであり、言語学的な単語とは必ずしも一致しない。例えば、「タロウ君」は、それ全体を１単語として扱ってもよいし、「タロウ」、「君」という２単語として扱ってもよい。さらに、もっと大きな単位である「こんにちはタロウ君」等を１単語として扱ってもよい。
【００３５】
また、音韻とは、音響的に１つの単位として扱った方が処理上都合のよいもののことであり、音声学的な音韻や音素とは必ずしも一致しない。例えば、「東京」の「とう」の部分を"t/o/u"という３個の音韻記号で表してもよいし、"o"の長音である"o:"という記号を用いて"t/o:"と表してもよい。または、"t/o/o"と表すことも可能である。他にも、無音を表す記号を用意したり、さらにそれを「発話前の無音」、「発話に挟まれた短い無音区間」、「発話語の無音」、「「っ」の部分の無音」のように細かく分類してそれぞれに記号を用意してもよい。
【００３６】
言語モデルデータベース５３は、辞書データベース５２の単語辞書に登録されている各単語がどのように連鎖する（接続する）かに関する情報を記述している。
【００３７】
音韻タイプライタ部４５は、特徴量抽出部４３から供給された特徴パラメータに基づいて、入力された音声に対応する音韻系列を取得する。例えば、「私の名前は太郎です。」という音声から"w/a/t/a/sh/i/n/o/n/a/m/a/e/w/a/t/a/r/o:/d/e/s/u"という音韻系列を取得する。この音韻タイプライタには、既存のものを用いることができる。
【００３８】
なお、音韻タイプライタ以外でも、任意の音声に対して音韻系列を取得できるものであれば代わりに用いることができる。例えば、日本語の音節（あ・い・う…か・き…・ん）を単位とする音声認識や、音韻よりも大きく、単語よりは小さな単位であるサブワードを単位とする音声認識等を用いることも可能である。
【００３９】
制御部４６は、ＡＤ変換部４２、特徴量抽出部４３、マッチング部４４、音韻タイプライタ部４５の動作を制御する。
【００４０】
次に、図５のフローチャートを参照して、本発明の対話システムの処理について説明する。
【００４１】
ステップＳ２１において、ユーザがマイクロホン４１に音声を入力すると、マイクロホン４１は、その発話を、電気信号としての音声信号に変換する。そして、ステップＳ２２において、音声認識部１は、音声認識処理を実行する。
【００４２】
音声認識処理の詳細について、図６を参照して説明する。マイクロホン４１で生成された音声信号は、ステップＳ４１において、ＡＤ変換部４２により、ディジタル信号である音声データに変換され、特徴量抽出部４３に供給される。
【００４３】
ステップＳ４２において、特徴量抽出部４３は、ＡＤ変換部４２からの音声データを受信する。そして、特徴量抽出部４３は、ステップＳ４３に進み、適当なフレームごとに、例えば、スペクトル、パワー、それらの時間変化量等の特徴パラメータを抽出し、マッチング部４４に供給する。
【００４４】
ステップＳ４４において、マッチング部４４は、辞書データベース５２に格納されている単語モデルのうちのいくつかを連結して、単語列を生成する。なお、この単語列を構成する単語には、辞書データベース５２に登録されている既知語だけでなく、登録されていない未知語を表わすシンボルである“<OOV>”も含まれている。この単語列生成処理について、図７を参照して詳細に説明する。
【００４５】
ステップＳ６１において、マッチング部４４は、入力音声の或る区間について、両方の場合の音響スコアを計算する。即ち、辞書データベース５２に登録されている既知語とマッチングさせた結果の音響スコアと、音韻タイプライタ部４５により得られた結果（今の場合、"w/a/t/a/sh/i/n/o/n/a/m/a/e/w/a/t/a/r/o:/d/e/s/u"の中の一部区間）の音響スコアが、それぞれ計算される。音響スコアは、音声認識結果の候補である単語列と入力音声とが音としてどれだけ近いかを表す。
【００４６】
次に、入力音声の一部区間と辞書データベース５２に登録されている既知語とをマッチングさせた結果の音響スコアと、音韻タイプライタ部４５による結果の音響スコアを比較させるのであるが、既知語とのマッチングは単語単位で行われ、音韻タイプライタ部４５でのマッチングは音韻単位で行われ、尺度が異なっているので、そのままでは比較することが困難である（一般的には、音韻単位の音響スコアの方が大きな値となる）。そこで、尺度を合わせて比較できるようにするために、マッチング部４４は、ステップＳ６２において、音韻タイプライタ部４５により得られた結果の音響スコアに補正をかける。
【００４７】
例えば、音韻タイプライタ部４５からの音響スコアに係数を掛けたり、一定の値やフレーム長に比例した値などを減じたりする処理が行われる。勿論、この処理は相対的なものなので、既知語とマッチングさせた結果の音響スコアに対して行うこともできる。なお、この処理の詳細は、例えば、文献「"EUROSPEECH99 Volume 1, Page 49-52"」に「OOV-Detection in Large Vocabulary System Using Automatically Defined Word-Fragments as Fillers」として開示されている。
【００４８】
マッチング部４４は、ステップＳ６３において、この２つの音響スコアを比較する（音韻タイプライタ部４５で認識させた結果の音響スコアの方が高い（優れている）か否かを判定する）。音韻タイプライタ部４５で認識させた結果の音響スコアの方が高い場合、ステップＳ６４に進み、マッチング部４４は、その区間を<OOV>（Out Of Vocabulary）（未知語）であると推定する。
【００４９】
ステップＳ６３において、既知語とマッチングさせた結果の音響スコアに対して、音韻タイプライタ部４５で認識された結果の音響スコアの方が低いと判定された場合、ステップＳ６６に進み、マッチング部４４は、その区間を既知語であると推定する。
【００５０】
即ち、例えば、「たろう」に相当する区間について、音韻タイプライタ部４５の出力した"t/a/r/o:"の音響スコアと、既知語でマッチングさせた場合の音響スコアを比較して、"t/a/r/o："の音響スコアの方が高い場合は、その音声区間に相当する単語として「<OOV>（t/a/r/o:）」が出力され、既知語の音響スコアの方が高い場合は、その既知語が音声区間に相当する単語として出力される。
【００５１】
ステップＳ６５において、音響スコアが高くなると推測される単語列（いくつかの単語モデルを連結したもの）を優先的にｎ個を生成する。
【００５２】
図６に戻って、ステップＳ４５において、音韻タイプライタ部４５はステップＳ４４の処理とは独立して、ステップＳ４３の処理で抽出された特徴パラメータに対して音韻を単位とする認識を行ない、音韻系列を出力する。例えば、「私の名前は太郎（未知語）です。」という音声が入力されると、音韻タイプライタ部４５は、"w/a/t/a/sh/i/n/o/n/a/m/a/e/w/a/t/a/r/o:/d/e/s/u"という音韻系列を出力する。
【００５３】
ステップＳ４６において、マッチング部４４は、ステップＳ４４で生成された単語列ごとに音響スコアを計算する。<OOV>（未知語）を含まない単語列に対しては既存の方法、すなわち各単語列（単語モデルを連結したもの）に対して音声の特徴パラメータを入力することで尤度を計算するという方法を用いる。一方、<OOV>を含む単語列については、既存の方法では<OOV>に相当する音声区間の音響スコアを求めることができない（<OOV>に対応する単語モデルは事前には存在しないため）。そこで、その音声区間については、音韻タイプライタの認識結果の中から同区間の音響スコアを取り出し、その値に補正をかけたものを<OOV>の音響スコアとして採用する。さらに、他の既知語部分の音響スコアと統合し、それをその単語列の音響スコアとする。
【００５４】
ステップＳ４７において、マッチング部４４は、音響スコアの高い単語列を上位ｍ個（ｍ≦ｎ）残し、候補単語列とする。ステップＳ４８において、マッチング部４４は、言語モデルデータベース５３を参照して、候補単語列毎に、言語スコアを計算する。言語スコアは、認識結果の候補である単語列が言葉としてどれだけふさわしいかを表す。ここで、この言語スコアを計算する方法を詳細に説明する。
【００５５】
本発明の音声認識部１は未知語も認識するため、言語モデルは未知語に対応している必要がある。例として、未知語に対応した文法または有限状態オートマトン（FSA:Finite State Automaton）を用いた場合と、同じく未知語に対応したtri-gram（統計言語モデルの1つである）を用いた場合とについて説明する。
【００５６】
文法の例を図８を参照して説明する。この文法６１はBNF(Backus Naur Form)で記述されている。図８において、"$Ａ"は「変数」を表し、"Ａ｜Ｂ"は「ＡまたはＢ」という意味を表す。また、"［Ａ］"は「Ａは省略可能」という意味を表し、｛Ａ｝は「Ａを０回以上繰り返す」という意味を表す。
【００５７】
<OOV>は未知語を表すシンボルであり、文法中に<OOV>を記述しておくことで、未知語を含む単語列に対しても対処することができる。"$ACTION"は図８では定義されていないが、実際には、例えば、「起立」、「着席」、「お辞儀」、「挨拶」等の動作の名前が定義されている。
【００５８】
この文法６１では、「＜先頭＞/こんにちは/＜終端＞」（“/”は単語間の区切り）、「＜先頭＞/さようなら/＜終端＞」、「＜先頭＞/私/の/名前/は/<OOV>/です/＜終端＞」のように、データベースに記憶されている文法に当てはまる単語列は受理される（この文法で解析される）が、「＜先頭＞/君/の/<OOV>/名前/＜終端＞」といった、データベースに記憶されている文法に当てはまらない単語列は受理されない（この文法で解析されない）。なお、「＜先頭＞」と「＜終端＞」はそれぞれ発話前と後の無音を表す特殊なシンボルである。
【００５９】
この文法を用いて言語スコアを計算するために、パーザ（解析機）が用いられる。パーザは、単語列を、文法を受理できる単語列と、受理できない単語列に分ける。即ち、例えば、受理できる単語列には言語スコア１が与えられて、受理できない単語列には言語スコア０が与えられる。
【００６０】
したがって、例えば、「＜先頭＞/私/の/名前/は/<OOV>（t/a/r/o：）/です/＜終端＞」と、「＜先頭＞/私/の/名前/は/<OOV>（j/i/r/o：）/です/＜終端＞」という２つの単語列があった場合、いずれも「＜先頭＞/私/の/名前/は/<OOV>/です/＜終端＞」に置き換えられた上で言語スコアが計算されて、ともに言語スコア１（受理）が出力される。
【００６１】
また、単語列の文法が受理できるか否かの判定は、事前に文法を等価（近似でも良い）な有限状態オートマトン（以下、FSAと称する）に変換しておき、各単語列がそのFSAで受理できるか否かを判定することによっても実現できる。
【００６２】
図８の文法を等価なFSAに変換した例が、図９に示されている。FSAは状態（ノード）とパス（アーク）とからなる有向グラフである。図９に示されるように、Ｓ１は開始状態、Ｓ１６は終了状態である。また、"$ACTION"には、図８と同様に、実際には動作の名前が登録されている。
【００６３】
パスには単語が付与されていて、所定の状態から次の状態に遷移する場合、パスはこの単語を消費する。ただし、"ε"が付与されているパスは、単語を消費しない特別な遷移（以下、ε遷移と称する）である。即ち、例えば、「＜先頭＞/私/は/<OOV>/です/＜終端＞」においては、初期状態Ｓ１から状態Ｓ２に遷移して、＜先頭＞が消費され、状態Ｓ２から状態Ｓ３へ遷移して、「私」が消費されるが、状態Ｓ３から状態Ｓ５への遷移は、ε遷移なので、単語は消費されない。即ち、状態Ｓ３から状態Ｓ５へスキップして、次の状態Ｓ６へ遷移することができる。
【００６４】
所定の単語列がこのFSAで受理できるか否かは、初期状態Ｓ１から出発して、終了状態Ｓ１６まで到達できるか否かで判定される。
【００６５】
即ち、例えば、「＜先頭＞/私/の/名前/は/<OOV>/です/＜終端＞」においては、初期状態Ｓ１から状態Ｓ２へ遷移して、単語「＜先頭＞」が消費される。次に、状態Ｓ２から状態Ｓ３へ遷移して、単語「私」が消費される。以下、同様に、状態Ｓ３から状態Ｓ４へ、状態Ｓ４から状態Ｓ５へ、状態Ｓ５から状態Ｓ６へ、状態Ｓ６から状態Ｓ７へ順次遷移して、「の」、「名前」、「は」、「<00V>」、が次々に消費される。さらに、状態Ｓ７から状態Ｓ１５へ遷移して、「です」が消費され、状態Ｓ１５から状態Ｓ１６に遷移して、「<終端>」が消費され、結局、終了状態Ｓ１６へ到達する。したがって、「＜先頭＞/私/の/名前/は/<OOV>/です/＜終端＞」はFSAで受理される。
【００６６】
しかしながら、「＜先頭＞/君/の/<OOV>/名前/＜終端＞」は、状態Ｓ１から状態Ｓ２へ、状態Ｓ２から状態Ｓ８へ、状態Ｓ８から状態Ｓ９までは遷移して、「＜先頭＞」、「君」、「の」までは消費されるが、その先には遷移できないので、終了状態Ｓ１６へ到達することはできない。したがって、「＜先頭＞/君/の/<OOV>/名前/＜終端＞」は、FSAで受理されない（不受理）。
【００６７】
さらに、言語モデルとして、統計言語モデルの１つであるtri-gramを用いた場合の言語スコアを計算する例を、図１０を参照して説明する。統計言語モデルとは、その単語列の生成確率を求めて、それを言語スコアとする言語モデルである。即ち、例えば、図１０の言語モデル７１の「＜先頭＞/私/の/名前/は/<OOV>/です/＜終端＞」の言語スコアは、第２行に示されるように、その単語列の生成確率で表される。これはさらに、第３行乃至第６行で示されるように、条件付き確率の積として表される。なお、例えば、「Ｐ（の｜＜先頭＞私）」は、「の」の直前の単語が「私」で、「私」の直前の単語が「＜先頭＞」であるという条件の下で、「の」が出現する確率を表す。
【００６８】
さらに、tri-gramでは、図１０の第３行乃至第６行で示される式を、第７行乃至第９行で示されるように、連続する３単語の条件付き確率で近似させる。これらの確率値は、図１１に示されるようなtri-gramデータベース８１を参照して求められる。このtri-gramデータベース８１は、予め大量のテキストを分析して求められたものである。
【００６９】
図１１の例では、３つの連続する単語ｗ１，ｗ２，ｗ３の確率Ｐ（ｗ３｜ｗ１ｗ２）が表されている。例えば、３つの単語ｗ１，ｗ２，ｗ３が、それぞれ、「＜先頭＞」、「私」、「の」である場合、確率値は０．１２とされ、「私」、「の」、「名前」である場合、確率値は０．０１とされ、「<OOV>」、「です」、「＜終端＞」である場合、確率値は、０．８７とされている。
【００７０】
勿論、「Ｐ（Ｗ）」及び「Ｐ（ｗ２｜ｗ１）」についても、同様に、予め求めておく。
【００７１】
このようにして、言語モデル中に<OOV>について、エントリ処理をしておくことで、<OOV>を含む単語列に対して、言語スコアを計算することができる。したがって、認識結果に<OOV>というシンボルを出力することができる。
【００７２】
また、他の種類の言語モデルを用いる場合も、<OOV>についてのエントリ処理をすることによって、同様に<OOV>を含む単語列に対して、言語スコアを計算することができる。
【００７３】
さらに、<OOV>のエントリが存在しない言語モデルを用いた場合でも、<OOV>を言語モデル中の適切な単語にマッピングする機構を用いることで、言語スコアの計算ができる。例えば、「Ｐ（<OOV>｜私は）」が存在しないtri-gramデータベースを用いた場合でも、「Ｐ（太郎｜私は）」でデータベースをアクセスして、そこに記述されている確率を「Ｐ（<OOV>｜私は）」の値とみなすことで、言語スコアの計算ができる。
【００７４】
図６に戻って、マッチング部４４は、ステップＳ４９において、音響スコアと言語スコアを統合する。ステップＳ５０において、マッチング部４４は、ステップＳ４９において求められた音響スコアと言語スコアの両スコアを統合したスコアに基づいて、最もよいスコアをもつ候補単語列を選択して、認識結果として出力する。
【００７５】
なお、言語モデルとして、有限状態オートマトンを使用している場合は、ステップＳ４９の統合処理を、言語スコアが０の場合は単語列を消去し、言語スコアが０以外の場合はそのまま残すという処理にしてもよい。
【００７６】
図５に戻って、以上のようにしてステップＳ２２で音声認識処理が実行された後、ステップＳ２３において、音声認識部１の制御部４６は認識された単語列に未知語が含まれているか否かを判定する。未知語が含まれていると判定された場合、制御部４６は、単語獲得部４を制御し、ステップＳ２４において、単語獲得処理を実行させ、その未知語を獲得させる。
【００７７】
単語獲得処理の詳細について、図１２を参照して説明する。ステップＳ９１において、単語獲得部４は、音声認識部１から未知語（<OOV>）の特徴パラメータを抽出する。ステップＳ９２において、単語獲得部４は、未知語が既獲得のクラスタに属するか否かを判定する。既獲得のクラスタに属さないと判定された場合、単語獲得部４は、ステップＳ９３において、その未知語に対応する、新しいクラスタを生成する。そして、ステップＳ９４において、単語獲得部４は、未知語の属するクラスタのＩＤを音声認識部１のマッチング部４４に出力する。
【００７８】
ステップＳ９２において、未知語が既獲得のクラスタに属すると判定された場合、新しいクラスタを生成する必要がないので、単語獲得部４はステップＳ９３の処理をスキップして、ステップＳ９４に進み、未知語の属する既獲得のクラスタのＩＤをマッチング部４４に出力する。
【００７９】
なお、図１２の処理は各未知語毎に行われる。
【００８０】
図５に戻って、ステップＳ２４の単語獲得処理終了後、ステップＳ２５において、対話制御部３は、ステップＳ２４の処理で獲得された単語列が、テンプレートにマッチしているかどうかを判定する。即ち、認識結果の単語列が何かの名前の登録を意味するものかどうかの判定がここで行われる。そして、ステップＳ２５において、認識結果の単語列がテンプレートにマッチしていると判定された場合、ステップＳ２６において、対話制御部３は、連想記憶部２に、名前のクラスタＩＤとカテゴリを対応させて記憶させる。
【００８１】
対話制御部３がマッチングさせるテンプレートの例を図１３を参照して説明する。なお、図１３において、"/Ａ/"は「文字列Ａが含まれていたら」という意味を表し、"Ａ｜Ｂ"は「ＡまたはＢ」という意味を表す。また、"."は「任意の文字」を表し、"Ａ＋"は「Ａの１回以上の繰り返し」という意味を表し、"(.)＋"は「任意の文字列」を表す。
【００８２】
このテンプレート９１は、認識結果の単語列が図の左側の正規表現にマッチした場合、図の右側の動作を実行させることを表している。例えば、認識結果が「＜先頭＞/私/の/名前/は/<OOV>（t/a/r/o:）/です/＜終端＞」という単語列である場合、この認識結果から生成された文字列「私の名前は<OOV>です」は、図１３の第２番目の正規表現にマッチする。したがって、対応する動作である「＜OOV>に対応するクラスタＩＤをユーザ名として登録する」処理が実行される。即ち、「<OOV>(t/a/r/o：)」のクラスタＩＤが「１」である場合、図３に示されるように、クラスタＩＤ「１」のカテゴリ名が「ユーザ名」として登録される。
【００８３】
また、例えば、認識結果が、「＜先頭＞/君/の/名前/は/<OOV>（a/i/b/o）/だよ/＜終端＞」である場合、そこから生成される文字列「君の名前は<OOV>だよ」は図１３の第１番目の正規表現にマッチするので、「<OOV>(a/i/b/o)」がクラスタＩＤ「２」であれば、クラスタＩＤ「２」のカテゴリは、「キャラクタ名」として登録される。
【００８４】
なお、対話システムによっては、登録する単語が1種類しかない（例えば、「ユーザ名」のみ）場合もあり、その場合は、テンプレート９１と連想記憶部２は簡略化することができる。例えば、テンプレート９１の内容を「認識結果に<OOV>が含まれていたら、そのＩＤを記憶する」として、連想記憶部２にそのクラスタＩＤのみを記憶させることができる。
【００８５】
対話制御部３は、このようにして連想記憶部２に登録された情報を、以後の対話の判断処理に反映させる。例えば、対話システムの側で、「ユーザの発話の中に、対話キャラクタの名前が含まれているかどうかを判定する。含まれている場合は『呼びかけられた』と判断して、それに応じた返事をする」という処理や、「対話キャラクタがユーザの名前をしゃべる」という処理が必要になった場合に、対話制御部３は連想記憶部２の情報を参照することで、対話キャラクタに相当する単語（カテゴリ名が「キャラクタ名」であるエントリ）やユーザ名に相当する単語（カテゴリ名が「ユーザ名」であるエントリ）を得ることができる。
【００８６】
一方、ステップＳ２３において、認識結果に未知語が含まれていないと判定された場合、またはステップＳ２５において、認識結果がテンプレートにマッチしていないと判定された場合、ステップＳ２７において、対話制御部３は、入力音声に対応する応答を生成する。すなわち、この場合には、名前（未知語）の登録処理は行われず、ユーザからの入力音声に対応する所定の処理が実行される。
【００８７】
ところで、言語モデルとして文法を用いる場合、文法の中に音韻タイプライタ相当の記述も組み込むことができる。この場合の文法の例が図１４に示されている。この文法１０１において、第１行目の変数"$PHONEME"は、全ての音韻が「または」を意味する"|"で繋がれているので、音韻記号の内のどれか１つを意味する。変数"OOV"は"$PHONEME"を０回以上繰り返すことを表している。即ち、「任意の音韻記号を０回以上接続したもの」を意味し、音韻タイプライタに相当する。したがって、第３行目の「は」と「です」の間の"$OOV"は、任意の発音を受け付けることができる。
【００８８】
この文法１０１を用いた場合の認識結果では、"$OOV"に相当する部分が複数のシンボルで出力される。例えば、「私の名前は太郎です」の認識結果が「＜先頭＞/私/の/名前/は/t/a/r/o:/です/＜終端＞」となる。この結果を「＜先頭＞/私/の/名前/は/<OOV>（t/a/r/o:）/です」に変換すると、図５のステップＳ２３以降の処理は、音韻タイプライタを用いた場合と同様に実行することができる。
【００８９】
以上においては、未知語に関連する情報として、カテゴリを登録するようにしたが、その他の情報を登録するようにしてもよい。
【００９０】
図１５は、上述の処理を実行するパーソナルコンピュータ１１０の構成例を示している。このパーソナルコンピュータ１１０は、CPU（Central Processing Unit）１１１を内蔵している。CPU１１１にはバス１１４を介して、入出力インタフェース１１５が接続されている。バス１１４には、ROM(Read Only Memory)１１２およびRAM(Random Access Memory)１１３が接続されている。
【００９１】
入出力インターフェース１１５には、ユーザが操作するマウス、キーボード、マイクロホン、ＡＤ変換器等の入力デバイスで構成される入力部１１７、およびディスプレイ、スピーカ、ＤＡ変換器等の出力デバイスで構成される出力部１１６が接続されている。さらに、入出力インターフェース１１５には、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１１８、並びにインタネットに代表されるネットワークを介してデータを通信する通信部１１９が接続されている。
【００９２】
入出力インターフェース１１５には、磁気ディスク１３１、光ディスク１３２、光磁気ディスク１３３、半導体メモリ１３４などの記録媒体に対してデータを読み書きするドライブ１２０が必要に応じて接続される。
【００９３】
このパーソナルコンピュータ１１０に本発明を適用した音声処理装置としての動作を実行させる音声処理プログラムは、磁気ディスク１３１（フロッピディスクを含む）、光ディスク１３２(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク１３３（MD(Mini Disc)を含む）、もしくは半導体メモリ１３４に格納された状態でパーソナルコンピュータ１１０に供給され、ドライブ１２０によって読み出されて、記憶部１１８に内蔵されるハードディスクドライブにインストールされる。記憶部１１８にインストールされた音声処理プログラムは、入力部１１７に入力されるユーザからのコマンドに対応するCPU１１１の指令によって、記憶部１１８からRAM１１３にロードされて実行される。
【００９４】
上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【００９５】
この記録媒体は、図１５に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディス１３１、光ディスク１３２、光磁気ディスク１３３、もしくは半導体メモリ１３４などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM１１２や、記憶部１１８に含まれるハードディスクなどで構成される。
【００９６】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【００９７】
また、本明細書において、システムとは、複数の装置が論理的に集合したものをいい、各構成の装置が同一筐体中にあるか否かは問わない。
【００９８】
【発明の効果】
以上のように、本発明によれば、単語を音声で登録することができる。またその登録を、ユーザに登録モードを意識させることなく実行できる。さらに、既知語と未知語を含む連続する入力音声の中から未知語を容易に登録することが可能となる。さらに、登録した単語を、以降の対話で反映させることが可能となる。
【図面の簡単な説明】
【図１】本発明を適用した対話システムの一実施の形態の構成例を示すブロック図である。
【図２】クラスタの状態の例を示す図である。
【図３】単語の登録を示す図である。
【図４】図１の音声認識部の構成例を示すブロック図である。
【図５】図１の対話システムの動作を説明するためのフローチャートである。
【図６】図５のステップＳ２２の音声認識処理の詳細を説明するためのフローチャートである。
【図７】図６のステップＳ４４の単語列を生成する動作の詳細を説明するためのフローチャートである。
【図８】言語モデルデータベースで用いられる文法の例を示す図である。
【図９】有限状態オートマトンによる言語モデルの例を示す図である。
【図１０】 tri-gramを用いた言語スコアの計算の例を示す図である。
【図１１】 tri-gramデータベースの例を示す図である。
【図１２】図５のステップＳ２４の単語獲得処理の詳細を説明するためのフローチャートである。
【図１３】テンプレートの例を示す図である。
【図１４】音韻タイプライタを組み込んだ文法の例を示す図である。
【図１５】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
１音声認識部，２連想記憶部，３対話制御部，４単語獲得部，４１マイクロホン，４２ＡＤ変換部，４３特徴量抽出部，４４マッチング部，４５音韻タイプライタ部，４６制御部，５１音響モデルデータベース，５２辞書データベース，５３言語モデルデータベース

Claims

入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置であって、
連続する前記入力音声を認識する認識手段と、
前記認識手段により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、
前記未知語判定手段により、前記未知語が含まれていると判定された場合、その未知語を獲得する獲得手段と、
前記未知語判定手段により前記認識結果に前記未知語が含まれていると判定された場合、その認識結果が、前記未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定手段と、
前記パターン判定手段により、前記認識結果が前記パターンにマッチしていると判定された場合、そのパターンにおいて前記未知語に対応付けられているカテゴリを、前記獲得手段により獲得された前記未知語に関連付けて登録する登録手段と
を備え、
前記認識手段は、
前記入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、前記認識結果の候補と前記入力音声の音の近さを表す音響スコアを比較する比較手段
を備え、
前記比較手段は、前記音韻タイプライタで認識させた場合の前記音響スコアの方が優れている場合、その区間を前記未知語であると推定し、優れていない場合、その区間を前記既知語であると推定する
ことを特徴とする音声処理装置。
前記未知語判定手段により、前記未知語が含まれていないと判定された場合、または、前記パターン判定手段により、前記認識結果が前記パターンにマッチしていないと判定された場合、前記入力音声に対応する応答を生成する応答生成手段
をさらに備えることを特徴とする請求項１に記載の音声処理装置。
前記獲得手段は、前記未知語のクラスタを生成することで、その未知語を獲得する
ことを特徴とする請求項１に記載の音声処理装置。
前記比較手段は、前記既知語でマッチングさせた場合の音響スコアに対して、前記音韻タイプライタで認識させた場合の音響スコアに補正をかけた上で比較を行う
ことを特徴とする請求項１に記載の音声処理装置。
前記認識手段は、
前記認識結果の候補としての、推定された前記未知語または前記既知語を含む単語列を生成する単語列生成手段と、
前記単語列生成手段により生成された前記単語列と前記入力音声の音の近さを表す音響スコアを計算する音響計算手段と、
前記単語列生成手段により生成された前記単語列のふさわしさを表す言語スコアを計算する言語計算手段と、
前記音響スコアと前記言語スコアに基づいて、前記単語列生成手段により生成された前記単語列から前記認識結果を選択する選択手段と
をさらに備える請求項１に記載の音声処理装置。
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置の音声処理方法において、
連続する前記入力音声を認識する認識ステップと、
前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
前記未知語判定ステップの処理により、前記未知語が含まれていると判定された場合、その未知語を獲得する獲得ステップと、
前記未知語判定ステップの処理により前記認識結果に前記未知語が含まれていると判定された場合、その認識結果が、前記未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定ステップと、
前記パターン判定ステップの処理により、前記認識結果が前記パターンにマッチしていると判定された場合、そのパターンにおいて前記未知語に対応付けられているカテゴリを、前記獲得ステップの処理により獲得された前記未知語に関連付けて登録する登録ステップと
を含み、
前記認識ステップは、
前記入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、前記認識結果の候補と前記入力音声の音の近さを表す音響スコアを比較する比較ステップを含み、
前記比較ステップの処理は、前記音韻タイプライタで認識させた場合の前記音響スコアの方が優れている場合、その区間を前記未知語であると推定し、優れていない場合、その区間を前記既知語であると推定する
ことを特徴とする音声処理方法。
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置のプログラムであって、
連続する前記入力音声を認識する認識ステップと、
前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
前記未知語判定ステップの処理により、前記未知語が含まれていると判定された場合、その未知語を獲得する獲得ステップと、
前記未知語判定ステップの処理により前記認識結果に前記未知語が含まれていると判定された場合、その認識結果が、前記未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定ステップと、
前記パターン判定ステップの処理により、前記認識結果が前記パターンにマッチしていると判定された場合、そのパターンにおいて前記未知語に対応付けられているカテゴリを、前記獲得ステップの処理により獲得された前記未知語に関連付けて登録する登録ステップと
を含み、
前記認識ステップは、
前記入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、前記認識結果の候補と前記入力音声の音の近さを表す音響スコアを比較する比較ステップを含み、
前記比較ステップの処理は、前記音韻タイプライタで認識させた場合の前記音響スコアの方が優れている場合、その区間を前記未知語であると推定し、優れていない場合、その区間を前記既知語であると推定する
ことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置を制御するコンピュータに実行させるプログラムにおいて、
連続する前記入力音声を認識する認識ステップと、
前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
前記未知語判定ステップの処理により、前記未知語が含まれていると判定された場合、その未知語を獲得する獲得ステップと、
前記未知語判定ステップの処理により前記認識結果に前記未知語が含まれていると判定された場合、その認識結果が、前記未知語を含む単語列であるパターンにマッチするか否かを判定するパターン判定ステップと、
前記パターン判定ステップの処理により、前記認識結果が前記パターンにマッチしていると判定された場合、そのパターンにおいて前記未知語に対応付けられているカテゴリを、前記獲得ステップの処理により獲得された前記未知語に関連付けて登録する登録ステップと
を含み、
前記認識ステップは、
前記入力音声の所定の区間について、既知語でマッチングさせた場合と音韻タイプライタで認識させた場合の、前記認識結果の候補と前記入力音声の音の近さを表す音響スコアを比較する比較ステップを含み、
前記比較ステップの処理は、前記音韻タイプライタで認識させた場合の前記音響スコアの方が優れている場合、その区間を前記未知語であると推定し、優れていない場合、その区間を前記既知語であると推定する
ことを特徴とするプログラム。