JP2007187799A

JP2007187799A - 音声対話装置および音声対話方法

Info

Publication number: JP2007187799A
Application number: JP2006004761A
Authority: JP
Inventors: Daisuke Saito; 大介斎藤; Minoru Togashi; 実冨樫; Takeshi Ono; 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-01-12
Filing date: 2006-01-12
Publication date: 2007-07-26
Anticipated expiration: 2026-01-12
Also published as: JP4752516B2

Abstract

【課題】入力音声信号を認識し、理解することにより応答音声信号を生成してユーザに出力する音声対話装置において、連結する複数の音声信号間における声質の乖離により、応答音声をユーザが聞き落とす可能性があった。このため、上記声質の乖離の影響を軽減した音声対話装置の実現を目的とした。
【解決手段】応答音声信号聞き落としの可能度を、音声信号の音響的特徴の差（基本周波数、エネルギー値、ＡＱ値の何れか）、あるいは話速の差等が予め設定した値以下となるように出力音声信号の調整を行うようにした。この調整は、音声信号の連結部分にポーズを挿入する、話速の変化を少なくする、基本周波数の変化を少なくする等により行う。
【選択図】図１

Description

本発明は、音声認識機能および音声出力機能を備えた音声対話装置に関する。特に、本発明は、音声出力機能によるシステム音声信号と、ユーザ発話音声信号とを組み合わせて音声出力を行う音声対話装置の性能向上に係る。

近年、音声認識及び音声出力機能を備え、システムすなわち音声対話装置とユーザとの間で音声対話を行うことが可能な音声対話装置が提供されている。音声対話の基本フローでは、ユーザがある目的を達成するためにシステムに向かって音声を入力し、システムは該音声を認識した結果、対応する応答音声を出力する。一度のユーザ発話でタスク達成のための十分な情報が得られた場合にはその旨を提示する音声出力を行って終了するが、ユーザの発話内容が理解できず、再度入力を要する場合や、発話内容の理解には成功しても、タスクの達成に十分な情報が該発話内容に含まれず、更なる情報の入力を要する場合は、複数回（ターン）に亘ってユーザとシステム側とで音声によるインタラクション（対話）を行う。

通常音声対話システムでは、予めナレータによる発話を録音した録音音声や音声合成を用いて音声出力を行う。こうした音声出力手法の中には、録音音声と合成音声を結合して出力する機能を備えたものもある。例えばナビゲーション装置であれば、共通的な言い回し「電話をかけます」「目的地に設定します」等をナレータの録音音声とし、「いち（１）」「に（２）」等の数字や、「東京ディズニーランド」のような施設名称を合成音声とし、「１２―２４５６へ電話します」や「”東京ディズニーランド”を目的地に設定します」等の音声を生成して出力する方法である。

また、今後大規模な音声対話によるエージェントシステム等を構築する場合や、ナビゲーションシステムと携帯電話等、双方で音声認識・出力機能を持つ機器を協調動作させることを考えた場合、複数の音声出力機能を組み合わせて用いる可能性がある。
別の例として、直前に発話されたユーザ音声の一部断片を切り取り、これを応答音声に挿入した結合音声を生成して提示するシステムがある。これは音声認識に「信頼度」と呼ぶ認識単語の確からしさを示す指標を付与する機能を備えた音声対話装置における応用方法である。認識信頼度に関しては下記「非特許文献1」に詳しく記述されている。

ここで、認識単語列に信頼度(Word confidence)を付与して出力する機能を備えた音声認識装置を用いた音声対話の例を以下に説明する。以下は、音声対話によるナビゲーション装置において目的地を設定する場合の例である。ここでは、ユーザが「神奈川県の横浜駅まで」と発話入力した場合に、音声認識装置は「神奈川県」については高い信頼度で認識し、「横浜駅」については低い信頼度で認識されているとする。この時、「神奈川県の“YOKOHAMAEKI”の部分がわかりませんでした」と応答音声を出力する。ここで「神奈川県の」及び「の部分が分かりませんでした」の部分はナレータの音声あるいは音声合成すなわちシステム音声が用いられ、「YOKOHAMAEKI」の部分は、直前のユーザの発話、すなわち「神奈川県の横浜駅」の後半部分である「横浜駅」を切り出してきた音声である。ユーザは、このシステム応答音声から、後半部分が認識できなかったことを理解し、「横浜駅」部分を再度発話する。この時システムが高信頼度で「横浜駅」を認識し、応答として「神奈川県の横浜駅ですね。目的地に設定します」と応答する。

尚、ユーザ発話中の「横浜駅」部分を切り出すためには、「横浜駅」と言う単語の発話された位置を特定する必要があるが、例えば、認識辞書で“県名”＋“ガベージ”＋“駅名”という辞書を用意し、“駅名”部分の単語との尤度が最大になる区間を対象区間とする方法等によって抽出が可能である。ここでガベージとは、辞書に登録された単語以外の未知語、間投詞(「の」「が」等)を吸収するために設けられるマッチング対象オブジェクトである。

以上のように、ユーザ音声をシステム音声に挿入した応答を出力することで、ユーザはどの単語が認識され、どの単語が認識されなかったのかを知ることが出来ると共に、仮に「横浜駅」の部分を発話するときに不意の雑音等が発生していたとすると、出力される応答音声にもその雑音が含まれるため、認識されなかった原因について直感的に知ることが出来る。こうした適切な音声フィードバックを介することによりユーザに対してスムーズな対話を提供できる。
Akinobu Lee，Kiyohiso Shikano，and Tatsuya Kawahara，"Real-time word confidence scoring using local posterior probabilities on tree trellis search，" In Proc． IEEE International Conference on Acoustics， Speech， and Signal Processing (ICASSP2004)、 Vol．I， pp．793−796， May 2004.

上述したような複数の音声出力機能を合わせて用いる音声対話装置では、複数の種類の「声」が結合されて出力されることになるが、こうした結合音声では、結合前後で声の高さや大きさ、話す速度などによって人の感じる声の特徴、いわゆる「声質」が大きく異なる場合がある。例えば合成音声とナレータの音声の声質は乖離が大きく、前述したユーザの音声とシステム音声とを連結させる技術においては、前者が男性の声、後者が女性の声となるようなケースも考えられ、声質の乖離は顕著なものとなる。

こうした声質の乖離を含む音声を提示した時、ユーザの聴覚特性が影響し、声質が変化した直後の音声を聞き落とす可能性が高いことが知られている（例えば、Robert F. Potter, “The Effects of Voice Changes on Orienting and Immediate Cognitive Overload in Radio Listeners” Media Psycology, 2000, Vol.2, pp.147-177）。この聴覚特性とは、普段我々が「音を聴く」時に働くフィルタに相当する機能のことである。すなわち我々は入力される多くの音情報から、自分に必要な刺激信号を選別(フィルタリング)する構造を持っており、車室内のような雑音の大きい環境でも必要な音声(ナビゲーションシステムの音声等)を聴き取ることができる。しかしながら、注目している音の特徴が急激に変化した場合には、このフィルタを作り直さなければならないが、フィルタが適応するまでのタイムラグが生じるため、その間の音が正常にフィルタリングできず、聞き落としが発生するものと考えられる。

例えば、予め用意されているナレータ音声と、ユーザの発話音声とを結合した応答音声を考えた場合、これら両音声の結合部分直後の音声の聞き落としの可能性が高くなってしまう。特に、ユーザの発話が低い信頼度で認識された場合、この低い信頼度の発話音声部分をそのままユーザの録音音声として提示することで、ユーザにとって直感性の高いインタフェースを提供するのが重要な目的である本発明を利用するシステムにおいてこのような聞き落としが発生してしまうと、この手法の有効性が十分に発揮されないと言う問題があった。
本発明は、こうした問題に鑑み、応答音声中での声質の乖離による聞き落としを低減する音声対話装置および音声対話方法の提供を目的とする。

前記問題を達成するため、本発明においては、声質の乖離を検出する機能を有し、この乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、この聞き落とし可能度が予め定められた値以下となるように出力音声の調整を行うことを基本的手段とした。すなわち、音声入力部から入力された音声信号は音声理解部で認識理解され、この結果として単語列を得る。この単語列による理解結果に基づき複数の音声生成部において生成された音声信号を選択し連結する。次いで上記音声信号の連結に用いた各音声信号の声質の乖離を予め定められたパラメータについて調べ、連結部分を中心に聞き落とし可能度の検出を聞き落とし可能度検出部で行う。この検出結果に基づき音声調整部で聞き落とし可能度を低減するように音声信号の声質調整を行う。

上記構成により本発明においては、入力音声信号を認識・理解した結果に基づいて声質の異なる音声を結合して応答音声を生成する際に、これら声質の乖離を検出し、この乖離に基づくユーザの聞き落としの可能性を定量化し、この聞き落とし可能度が所定の値以下となるように各結合音声を調整する機能を持たせるようにした。これにより、複数の声質を持つ音声を結合して出力する場合、ユーザに聞き落とされる可能性を抑制した聞き易い音質の音声出力の提示を可能にした。

（実施の形態１）
本実施の形態１において、本発明の基本構成を説明する。図１はこの基本構成を示すもので、図１の矢印（ａ）は入力信号を、矢印（ｂ）は出力信号を示している。図１に示すように、本発明においては、音声入力部１１０、音声理解部１２０、応答音声管理部１３０、応答音声出力部１４０から構成されている。

以下、図１により本実施の形態１を構成する各部について説明する。
図１において、音声入力部１１０は使用者の発話音声を入力(a)し、電気信号である音声信号に変換するものであり、例えば図２においてマイクロフォン２０１とＡＤ変換部２０２とを組み合わせることで実現される。図１における音声理解部１２０は、前記音声入力部１１０から入力された音声信号に対する音声認識を行い、これにより得られた単語列情報を理解結果として取得する音声認識機能を持つものである。応答音声管理部１３０は、複数の音声生成部１３０ａ〜１３０ｎを含んでおり、音声理解部１２０の理解結果に基づき、出力対象となる音声信号（以下、出力対象音声信号）をそれぞれの音声生成部１３０ａ〜１３０ｎから選択生成し、これら複数の生成された出力対象音声信号を連結し、結合音声信号を出力する機能を持つものである。この音声生成部１３０ａ〜１３０ｎには、一般的な音声合成方法や、予めナレータによって録音された音声データベースから必要な音声を選択する録音音声再生方法などを用いることができる。

応答音声出力部１４０は、上記結合音声信号の連結に用いた各出力対象音声信号の声質の乖離すなわち声質の差異を検出する機能と、この声質の乖離に基づく連結部分を中心にユーザにおける聞き落とし可能性の程度を示す聞き落とし可能度を算出する聞き落とし可能度検出部１４１と、この聞き落とし可能度の検出結果に基づき、聞き落とし可能度が所定の値以下となるように、上記の生成された各出力対象音声信号間の声質の乖離が少なくなるように上記の生成された結合音声信号の声質調整を行う音声調整部１４２とを含むものである。以上、音声理解部１２０から応答音声出力部１４０までの各機能は図２における演算装置２０３と記憶装置２０４とを組み合わせることで実現することができる。

上記構成を用いた装置の具体的な動作を、対話機能を持つナビゲーション装置における目的地設定のタスクを例として説明する。
この場合、図１における音声理解部１２０は図３（ａ）に示すような文法構造の辞書を持つ音声認識機能を備える。図３（ａ）の文法辞書によれば、県名ノード（４０１ａ）には４０２ａに示すよう県名単語が格納されている。更に県名４０１ａに引き続き駅名ノード（４０４ａ）が接続されており、４０５ａのような各県に対応する駅名が格納されている（便宜上４０５ａは神奈川県に接続される駅名だけを示しているが、実際には各県毎に駅名が格納されており、対応する県名と接続されている）
。この辞書構成によって、「県名＋駅名」の発話が認識可能であり、例えば、「北海道室蘭市」「神奈川県厚木市」のような入力も認識可能に出来る。また、駅名ノード（４０４ａ）の前後に「Ｇａｒｂａｇｅ」と記されたノードがある。これは間投詞や前後の駅名あるいは県名ノードに格納されていない単語、すなわち未知語などを吸収するためのノードであり、これにより例えば「神奈川県の横浜駅まで」等と発話した場合に、“の”や“まで”の部分をＧａｒｂａｇｅが吸収することにより、結果として単語「神奈川県」と「横浜駅」を正しく得ることが可能である。

ただし、上記構成の辞書を持つと、全国の県名及び駅を対象単語として待ち受けるため、単語を展開するために多くのメモリを必要とする。そこで、必要メモリを削減する方法を図３（ｂ）及び図３（ｃ）示した。この手法は発話音声を複数段階に分けて認識する方法であり、先ず第1段階の認識にて図３（ｂ）の辞書のみを展開して県名部分を認識し、この認識結果に基づき、対応する県についての駅名が格納された図３（ｃ）の辞書を展開して駅名を認識する。この手法により一度に展開する辞書は、県名辞書か単独県下の駅名辞書であるため、消費するメモリは飛躍的に小さくすることが出来る。

次に、目的地設定タスクにおいて、応答音声管理部１３０は前記音声理解部１２０の理解結果に基づき、ユーザに対する応答音声を生成する。この時、応答音声管理部１３０は図１に示したように複数の音声生成部１３０a〜１３０nを持っており、この中から適切な音声生成部１３０a〜１３０nの生成した音声信号を選択する。複数の音声入力手段からそれぞれ一つ以上の音声生成結果を取得し、これらを連結する機能も有する。具体的には、「（を）目的地に設定します」、「渋滞のためルートを再計算します」といったナビゲーション機能に関する出力音声信号を録音データとして保持した音声生成部１３０ａ、「（に）電話をします」、「（から）電話です」「（を）ダウンロードします」といった外部通信機能に関する出力音声信号を録音データとして保持した音声生成部１３０ｂ、前記音声理解部１２０が理解対象とする「神奈川県」、「横浜駅」といった県名、施設名、または「日本太郎（さん）」、「横浜花子（さん）」といったユーザの登録データや携帯電話のアドレス帳データ等に含まれる氏名等を合成音声として生成する音声生成部１３０ｃ等を持ち、これらを組み合わせた結合音声「神奈川県、横浜駅＋ ‥を目的地に設定します」、「日本太郎さんに電話をします」等を生成する。

ただし、ここでの結合音声は後述の応答音声出力部１４０にて調整を受けることを前提とするため、必ずしもこの時点で実際の結合音声データとして生成する必要は無く、音声生成部１３０a〜１３０nから得られる音声データへのインデックスとその連結順序が参照できる形式で準備されていれば良い。

ここで、複数の音声生成機能を有する理由について説明する。音声出力の品質を向上させるには、全ての音声応答文をナレータによる録音音声として統一しておくべきであろうが、パターン数が膨大であること、データの更新によって新規対話が増加する場合に再度録音しなおさなければならない等、実用上困難な場合が多い。このため、ナレータの音声と音声合成とを組み合わせて用いることが一般的である。これによって少なくともナレータと合成音声の２種類の声質がシステム上に存在することになる。また、例えばナビゲーション装置と携帯電話等の複数機器を接続して用いるシステム等を考えると、それぞれの機器が個別に音声認識・出力機能を持つ可能性があり、これを統合・協調して用いる場合にも、やはり複数の声質が存在することになる。こうしたシステム構築上の問題とは別に、ユーザビリティーの観点からあえて音声出力を複数持たせることも考えられる。例えばナビゲーション関係の機能は女性のナレータ音声とし、電話・ダウンロード接続などのネットワーク関係の機能は男性のナレータ音声としてそれぞれ出力する構成とすることで、ユーザは出力音声の男女の違いからナビゲーション機能かネットワーク機能かを瞬時に判断することができるため、使い勝手が向上する。

応答音声出力部１４０においては内蔵の聞き落とし可能度検出部１４１により、前記応答音声管理部１３０において結合音声信号を生成した場合に、連結対象となるそれぞれの音声信号における「声質の差異（声質の乖離）」として検出し、該差異から聞き落とし可能度を決定する。ここで、算出する声質の差異としては、下記の音声信号の音響的特徴の乖離を示すパラメータの少なくとも一つを含み
基本周波数
音声エネルギー値
AQ(Amplitude Quotient)値
発話速度
等を用いることができる、声質の差異を示すこれらパラメータの算出の仕方は以下の通りである。
１．基本周波数は、Ｆ０（エフゼロ）とも呼ばれる。これは声帯振動によって発生する周波数であり、「声の高さ」を数値化したものである。一般的な成人男性では１５０Ｈｚ前後、女性では２５０Ｈｚから３００Ｈｚ程度と言われている。尚、声の高さの指標として「ピッチ」という言葉が用いられる場合もあるが、これは有声音声での音声波形の１周期分の時間長であり、ピッチの逆数がＦ０に相当する。Ｆ０は、音声波形に対しＬＰＣ逆フィルタを通して残差波形を求め、これに低域通過フィルタを通した後、自己相関関数

を求め、これを下記（数２）式

によって正規化した複数のピーク値の平均値(平均Ｆ０値)、或いは最大Ｆ０値と平均Ｆ０値との差分、あるいは複数のピーク値からパワーが５０ｍｓの区間で６ｄＢ以上落ちないピーク値等として検出する。
２．音声エネルギー値は、音声の大きさ、すなわち声量に関する指標として用いる。例えば（数３）式のように、音圧の自乗の区間平均値として算出する。

尚、該音声エネルギー値の平方根をとったものをｐとし、（数４）式

として求められる「平均音圧」として扱ってもよい。

応答音声出力部においては、結合音声信号に含まれる複数の出力音声信号の声質の乖離を、前記の音響的特長の乖離として検出する機能を有しており、かつこの乖離が大きい場合には聞き落し可能度が大きいと判断し、この判断に基づき聞き落とし可能度が所定の値よりも小さくなるように複数の出力対象音声信号における基本周波数或いは音声エネルギーの少なくとも何れかを加工する機能を有している。
３．ＡＱ(Amplitude Quotient)値は、ホルマントの影響を除いた声帯音源波形のピークツーピーク値と、その微分波形の最大ネガティブピークの比として定義される値で、声の柔らかさに関する指標と言われており、文献：Ｐ．Ａｌｋｕ、Ｔ．Ｂａｅｃｋｓｔｒｏｅｍ、ａｎｄＥ．Ｖｉｌｋｍａｎ、”Ｎｏｒｍａｌｉｚｅｄａｍｐｌｉｔｕｄｅｑｕｏｔｉｅｎｔｆｏｒｐａｒａｍｅｔｒｉｚａｔｉｏｎｏｆｔｈｅｇｌｏｔｔａｌｆｌｏｗ”、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．１１２，ｎｏ．２，ｐｐ．７０１−７１０，２００２に詳細に記述されている。
４．発話速度は、例えば単位時間当たりの出力音素数、あるいは単位時間当たりのモーラ数として検出される。なお、モーラとは一定の時間的長さをもった音の分節単位のことで、「拍」とも呼ばれる。基本的に母音(「ア」等)、子音＋母音(「カ」等)、半母音＋母音(「ヤ」等)、子音＋半母音＋母音(「シャ」等)の組み合わせがある。モーラ数算出のため、音声生成部は、各音声に対応するテキストデータを保持しておく必要がある。尚、音声合成の場合はその機能自体に単語列(音素列)の入力を含むため、該入力文字列からモーラ数を算出できる。

上記４指標の少なくとも一つを抽出して、その差異を比較した結果に基づき、聞き落とし可能度を算出する。ここで聞き落とし可能度は、前記声質の差異そのもの、すなわち図４（ａ）のような正比例の関係としても良いし、一つ以上の所定の閾値を設けて該閾値を上回るか否かで聞き落とし可能度を判断してもよい。図４（ｂ）は、３種類の閾値ａ，ｂ，ｃ（横軸）を設け、これら各閾値に基づき、聞き落とし可能度をＡ，Ｂ，Ｃ（縦軸）のように決定する例である。

応答音声出力部１４０の音声調整部１４２は、上記聞き落とし可能度が所定の値より大きい場合に、音声聞き落とし可能度抑圧のため音声信号の上記乖離を示す何れかの項目について声質調整を行う。
音声信号の声質調整方法としては、
Ａ．各音声生成部１３０ａ〜１３０ｎ出力音声信号の結合部境界にポーズ（所定の時間長の無音信号）を挿入する
Ｂ．連結対象の音声の基本周波数、音声エネルギー値、発話速度を加工する
等の方法を用いることができる。
前者のポーズを挿入する方法（Ａ）に対しては、挿入するポーズ長の例を図５に示す。図５（ａ）は前述した図４（ａ）の方法で聞き落とし可能度を決定した場合の挿入ポーズ長の対応を示している。この方法では、聞き落とし可能度（横軸）の増加に伴い挿入するポーズの信号長（縦軸）が増加するように対応させている。ただし、挿入信号長の最大値を図５（ａ）中の“Ａ”の値に制限している。“Ａ”の値は、例えば１．５秒等とする。実際にはポーズ時間と聞き落としの関係から実験等により決定されることが好ましい。一方、前述した図４（ｂ）の方法で聞き落とし可能度を決定した場合の挿入されるポーズ長の対応を図５（ｂ）に示す。聞き落とし可能度がＡ，Ｂ，Ｃそれぞれの場合に挿入ポーズ長がα、β、γのように設定される。尚、より簡単な方法として、聞き落とし可能度の閾値を一つのみとし、該閾値を越える場合に一定のポーズ時間を一律で挿入するようにしても良い。

ポーズ挿入の具体例を図６に示す。図６は応答音声管理部１３０が音声、（ａ）「目的地を」及び（ｂ）「に設定します」をナレータ音声から選択し、音声（ｃ）「横浜駅」を合成音声として生成し、これを（ａ）＋（ｃ）＋（ｂ）の順に連結した「目的地を＋横浜駅＋に設定します」という応答音声を生成する場合を示している。聞き落とし可能度検出部１４１はナレータ音声（ａ），（ｂ）と（ｃ）の声質の乖離（声質の差異）を計算した結果、例えば図４（ｂ）の“Ａ”と得られる。続いて図５（ｂ）を参照して、挿入するポーズの信号長を“α”と決定する。その結果、図６の右部分に示すように、音声信号（ａ）及び（ｃ）の間、及び音声信号（ｃ）と音声信号（ｂ）の間にポーズ（ｐ１）及び（ｐ２）を応答音声出力部において挿入する。よって最終的に図６（ｄ）に示すような音声信号へと加工され、出力される。

尚、この例ではポーズを無音信号として示したが、このほかにも、例えば、非定常信号である「ホワイトノイズ」や、「後ろに接続される音声の基本周波数に相当する周波数の定常信号」等としても良い。また、聞き落とし可能度が所定の値より大きい場合に、結合音声信号の結合境界に、聞き落とし可能度に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入してもよい。特に後者の場合、次に出力される信号の直前でヒトの聴覚フィルタを自動的に作り変える作用(すなわち耳を準備させる効果)が期待できるため、より聞き落としの可能度を低減できるといえる。

後者の結合部の声質制御（Ｂ）については、具体的には結合対象の音声すなわち出力対象音声信号の基本周波数、音声エネルギー値、ＡＱ値、発話速度の差異に基づき聞き落とし可能度を算出し、該可能度を低減するように、基本周波数、音声エネルギー、発話速度の変換を行う方法の具体例を示す。尚、基本周波数、音声エネルギー、発話速度変換法については、それぞれ公知のピッチ変換技術、ボリューム加工技術、話速変換技術を適用することができる。

以下の例では、基本周波数、音声エネルギー、ＡＱ値、発話速度の差異を直接聞き落とし可能度と解釈し、該差異を解消するように基本周波数、音声エネルギー、発話速度を変更する(ＡＱ値の差異の解消は基本周波数の加工によって行うものとする)。ただし、前述したように、ユーザビリティーの観点から、敢えて声質を変化させて出力する場合も考えられるため、この場合は前述のＡの方法(ポーズの挿入)で対処するのが好ましい。すなわち、応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、且つこの乖離が大きい場合には、聞き落とし可能度が大きいと判断する機能と、この聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工する機能を有するようにしている。また、同様に、応答音声出力部は、結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出する機能を備え、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断する機能と、該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整する機能を有している。

図７は、図６同様、（ａ）「目的地を」及び（ｂ）「に設定します」をナレータ音声から選択し、音声（ｃ）「横浜駅」を合成音声として生成し、これを（ａ）＋（ｃ）＋（ｂ）の順に連結した「目的地を＋横浜駅＋に設定します」という応答音声を生成する場合を示している。各音声について基本周波数を抽出した結果、
（ａ）＝（ｂ）＝１７０Ｈｚ，
（ｃ）＝１５０Ｈｚ
と検出された。この差異１２０Ｈｚを直接聞き落とし可能度と算出し、この差異を解消するように上記応答音声の基本周波数のシフト操作を行う。図７の例では（ａ）（ｂ）をシフトし基本周波数を（ｃ）の１５０Ｈｚにそろえた（ａ‘）（ｂ’）を得ている。この処理の後、（ａ’）＋（ｃ）＋（ｂ’）と音声を連結して出力する。

図８は図６同様の結合音声について、音声エネルギーの差異に基づく聞き落とし可能度を検出する。この例では、（ａ）＝（ｂ）１８ｄＢ、（ｃ）＝３８ｄＢとして得られている。この差異の２０ｄＢを聞き落とし可能度と捉え、解消するようにエネルギーのシフトを行う。具体的には、予め所定のエネルギーを設定し、各音声について、この所定のエネルギーになるよう加工を行う。図８の例では、各音声のエネルギーを３０ｄＢに揃うように調整した（ａ’）（ｂ’）（ｃ’）を取得し、これを前記の（ａ’）＋（ｃ）＋（ｂ’）と同様に連結して出力する。

図９は図６同様の結合音声について、応答音声出力部１４０は、出力対象音声信号における性質の乖離を発話速度の乖離として聞き落とし可能度を検出する。ここで、聞き落とし可能度が所定の値より大きい場合に、この聞き落とし可能度が所定の値より小さくなるように、複数の出力対象音声信号のうちの少なくとも一つについて発話速度を調整する。この例では、（ａ）＝（ｂ）＝６モーラ／秒、（ｃ）＝１２モーラ／秒と検出され、差異の６モーラが聞き落とし可能度となる。これを解消するため、（ｃ）について話速変換を行い、（ａ）、（ｂ）に等しい6モーラ／秒の音声（ｃ’）を取得する。これを前記同様（ａ’）＋（ｃ）＋（ｂ’）の配列として連結し出力する。

上述した処理手順の流れを図１０のフローチャートを用いて説明する。
先ず、入力されたユーザの音声信号はステップ：Ｓ１０１において認識され、理解した内容として単語列を抽出する。この理解内容に基づいた単語列から、応答すべき出力音声信号を複数の音声生成部１３０ａ〜１３０ｎから取得する（ステップ：Ｓ１０２）。例えば図１０においては生成された音声信号（ａ）、（ｂ）の２つが取得されている。この取得された音声信号に対して、その連結順序を決定する（ステップ：Ｓ１０３）。図１０の例では（ｂ）＋（ａ）の連結順序としている。

次に、音声信号（ａ）、（ｂ）それぞれについて、上述した基本周波数、音声エネルギー、ＡＱ値、発話速度などの指標に基づく声質の差異を算出する（ステップ：Ｓ１０４）。ここで得られた声質の差異は、図４に示した声質の差異と聞き落とし可能度の対応関係を用いて、聞き落とし可能度を算出する（ステップ：Ｓ１０５）。さらに、この算出された聞き落とし可能度が図４に示したような所定の閾値(ＴＨ)を越えるか否かを判断する（ステップ：Ｓ１０６）。この場合、閾値は一つでも良いし、図４（ｂ）のＡ，Ｂ，Ｃのように複数設定しても良い。ここで、閾値を０に近い値に設定すると、声質の差異に対して厳しくなり、加工対象が増加する可能性が大きくなる。従って、実態を実験等により把握して閾値の所定値を設定することが好ましい。ここで聞き落とし可能度が閾値を上回る場合（ステップ：Ｓ１０６：ＮＯ）はステップ：Ｓ１０７へ、また、下回る場合（ステップ：Ｓ１０６：ＹＥＳ）はステップ：Ｓ１０９へ移行する。

上記聞き落とし可能度が閾値を上回る場合においては、加工対象とする音声信号の選択を行う（ステップ：Ｓ１０７）。図１０においては音声信号（ｂ）が選択されたとしている。この選択に関しては、複数の生成された音声信号の何れか一つを常に選択するようにしても良いし、あるいは予め基準となる声質を保持し、この基準から声質が乖離する音声は全て聞き落とし可能度があると判断し、加工対象としても良い。また、基本周波数を変更して差異を解消する手法を用いる場合には、周波数シフト量が大きくなるにつれ音声信号自体に歪みが生じ、音質が劣化する可能性がある。そこで例えば周波数シフト量の最大値を設定しておき、基本周波数の差異が該最大値を超える場合には、一方の音声信号を他方に揃えるのではなく、双方の音声信号を加工対象として選択し、基本周波数の加工を行うのが好ましい。この加工処理は上記の各手法(ポーズの挿入、基本周波数のシフト、音声エネルギーのシフト、話速変換等)を用いて加工を行い音声信号（ｂ’）を取得する（ステップ：Ｓ１０８）。音声信号（ｂ’）を取得後はステップ：Ｓ１０４に戻り、再度差異を検出し、聞き落とし可能度を検証する。ただし、上述した基本周波数のシフトの場合は、音声歪みのことも考慮し、基本周波数の乖離が極度に大きく、双方の音声を基本周波数シフト量の最大値（装置の限界値）までシフトしても乖離を吸収できない場合に、最大値までのシフトで処理を中止するようにしても良い。この場合、聞き落とし可能度の値は最適化されていないが加工処理を中止している旨のフラグ等何らかのマークを付してステップ：Ｓ１０６のループから抜け出す処理が必要である。聞き落とし可能度が閾値以下となった場合（ステップ：Ｓ１０６：ＹＥＳ）、ステップ：Ｓ１０３で求めた連結順序（ｂ’）＋（ａ）と、ステップ：Ｓ１０８で求めた加工音声結果(挿入ポーズを含む)を用いて、音声信号を連結する（ステップ：Ｓ１０９）。これにより生成された音声信号を出力しユーザに提示する（ステップ：Ｓ１１０）。

以上述べた構成およびその処理手段により、複数の声質を含むような音声信号を連結してユーザに提示する場合に、その個々の音声信号における声質の乖離に基づく聞き落とし可能度を判断し、その可能度を抑制するように連結対象となる音声を加工あるいはポーズの挿入してユーザに提示するため、聞き落しが発生し難く、より円滑な対話が遂行できる音声対話装置を提供することができる。

（実施の形態２）
本実施の形態２においては、システム側で生成された出力音声(以下システム音声)とユーザの発話した音声(以下ユーザ音声)とを連結した出力音を用いてユーザに応答音声を提示する方法での本発明の適用形態について説明する。すなわち、前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有している。

図１１は本実施の形態２による装置構成を示すブロック図である。本実施の形態２においても実施の形態１の場合と同様に、構成要素は、音声入力部１１０、音声理解部２２０、応答音声管理部２３０、応答音声出力部２４０から構成されており、装置構成、各機能共に基本部分は共通であるので、以下には本実施形態２の特徴部分について説明する。

音声理解部(図１１：２２０)は、前記音声入力部から得られた音声信号に対応する単語列音声認識を行い、該音声に対応する単語列を選択する音声認識機能と、この単語列に含まれる複数の単語情報を用いて現在のシステムの理解状態を決定する機能を有している。ここで、上記音声認識機能は認識した単語列に含まれる各単語について認識信頼度を付与し、上記の理解結果として出力する機能、及び認識時の各単語の認識位置の記録機能を持つことが好ましい。前者の信頼度は理解候補として出力された単語の確からしさであり、同時に出現した候補単語との認識尤度の近さから算出する方法、単語事後確率等から算出する方法等が提案されている。本実施の形態２では信頼度に対する所定の閾値を設定し、閾値を上回る単語に関しては認識成功として処理を進め、下回る単語に対しては認識の自信が無いとして、聞き返し等の処理を行う。後者(単語の認識位置)は文法辞書との照合処理時において取得可能である。例えば、認識辞書で“県名”＋“ガベージ”＋“駅名”という辞書を用意し、「○○県の××駅」を照合する場合、発話“○○駅”と、辞書の“駅名”とが最大尤度で合致するときに、該駅名が認識単語として出力されるため、そのときのマッチング位置が“○○駅”の音声区間として取得可能である。ただし、雑音等の影響で誤認識が生じる場合にはこの音声区間も間違って選択されている可能性が高い。本実施の形態２の例における対話装置では、このように音声区間に誤認識ある場合も、ユーザ音声をそのまま提示する構成としている。これによってユーザはシステムが音声区間を誤って理解していることを直感的に知ることが出来るため、以降の対話が円滑になる。

この具体例を図１２に示す。図１２（ａ）はユーザ音声「神奈川県の横浜駅に行く」の波形を示したものである。図３（ａ）に示す辞書で認識した場合、「神奈川県」＋「の(ガベージ)」＋「横浜駅」＋「に行く（ガベージ）」が認識され、理解結果として、図１２に示す理解結果（１）のように、
「神奈川県(信頼度高)」＆「横浜駅(信頼度高)」が得られる場合や、
理解結果（２）のように、
「神奈川県(信頼度高)」＆「横浜駅(信頼度低)」
が得られる場合が考えられる。この場合の応答については後述する。そしてこの時同時に、音声区間について、
「神奈川県」：Ａ１〜Ａ２
「の(ガベージ)」：Ａ２〜Ａ３
「横浜駅」：Ａ３〜Ａ４
「に行く(ガベージ)」：Ａ４〜Ａ５
が得られている。

一方、図１２（ｂ）は背景雑音が存在する場合であり、時刻Ｂ１を境に背景雑音の振幅が大きくなっている。この状況で同様の発話を行った波形が図１２（ｃ）であるが、これを同様の辞書で認識させた場合「神奈川県」が区間Ｃ１〜Ｃ２で認識されるものの、その後の音声信号については雑音に埋もれて正しく切り出せず(区間Ｃ２〜Ｃ３のように判定され)、認識結果も正しく得られない可能性が高い。例えば理解結果として、図１２（ｃ）の理解結果（３）のように、
「神奈川県(信頼度高)」＆「○○○(信頼度低)」
（ただし○○○は横浜駅とは音素的に大きく異なる単語）
が得られる場合が考えられる。この場合の応答例については後述する。

応答音声管理部２３０は、システム音声信号を生成するシステム音声生成部２３１と、ユーザ音声信号を抽出するユーザ音声抽出部２３２とから構成され、前記音声理解部２２０における音声信号の理解内容に基づき、システム音声信号とユーザ音声信号とを組み合わせた結合音声を生成する機能を持つ。具体的には、前記音声理解部２２０において信頼度が高いと判断された単語についてはシステム音声信号を選択し、信頼度が低いと判断された単語についてはユーザ音声信号を選択し、これら両音声信号を結合する機能を有している。

システム音声生成部２３１としては、一般的な音声合成方法や、ナレータ音声による録音音声再生方法等が用いられる。ユーザ音声抽出部２３２は、前記音声理解部２２０の持つ認識位置の記録機能を用いて、各認識単語に対応する区間の音声信号を切り出してくる機能を持つ。

前述した図１２の例を考えると、理解結果（１）の場合は「神奈川県」「横浜駅」双方の単語の信頼度が高いため、両単語について、対応するシステム音声を選択し、応答例（１）「“神奈川県(システム音声)”の“横浜駅(システム音声)”を目的地に設定します」等の応答音声を生成する。
一方、理解結果（２）の場合は、「神奈川県」は信頼度が高いものの、「横浜駅」の信頼度が十分出ないため、音声区間Ａ３〜Ａ４のユーザ音声を抽出し、応答例（２）「“神奈川県(システム音声)”の“よこはまえき(ユーザ音声)”の部分が分かりませんでした」等の応答音声を生成する。
更に、理解結果３の場合は、「神奈川県」は信頼度が高いものの、それ以降「の横浜駅に行く」の部分については、まったく信頼度が得られない。従って、「神奈川県」についてはシステム音声を選択し、それ以降の部分については、区間Ｃ２〜Ｃ３のユーザ音声を抽出し、応答例（３）「“神奈川県”(システム音声)の“の横浜駅に行く”(ユーザ音声)の部分が分かりませんでした。もう一度お願いします」等の応答音声を生成する。下記の応答音声出力部２４０は、応答例（２）及び（３）の場合に機能するもので、応答例（１）の場合のように、全て高信頼度で認識された場合は応答音声出力部２４０に搭載されている機能を使用することなく音声信号は出力される。すなわち、応答音声出力部２４０は、結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、この乖離が大きい場合、聞き落とし可能度が大きいと判断し、聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有している。

応答音声出力部２４０の聞き落とし可能度検出部２４１は応答音声管理部２３０で選択・抽出されたシステム音声及びユーザ音声の声質の差異を求め、聞き落とし可能度を算出する機能を持ち、音声調整部２４２は該聞き落とし可能度を抑制するようにシステム音声もしくはユーザ音声を加工し、出力する機能を持つ。

以下上記システムの具体的な動作について具体的な処理の流れを、図１３のフローチャートにより説明する。
入力音声はユーザからの入力音声に対して認識処理が行われる（ステップ：Ｓ２０１）。この該認識処理の結果として、理解内容（Ｗｎ，Ｃｎ）を取得する。ここでＷｎは理解した単語、Ｃｎは該単語の信頼度、ｎは理解した単語の通し番号の数(ｎ＝１．．．Ｎ)、Ｓｎはｎ番目の単語の時間軸上における開始位置、Ｅｎはその終了位置である（ステップ：Ｓ２０２）。次いで、理解単語全て(Ｗｎ)について、信頼度(Ｃｎ)と信頼度閾値（ＴＨ）との比較を行う（ステップ：Ｓ２０３）。閾値より大きい、すなわち信頼度が高い場合（ステップ：Ｓ２０３ＹＥＳ）にはステップ：Ｓ２０４へ、閾値より小さい、すなわち信頼度が低い場合（ステップ：Ｓ２０３ＮＯ）にはステップ：Ｓ２０５へ移行する。信頼度の高かった理解単語(Ｗｎ（ａ）)については、対応するシステム音声(ＳＷｎ)をシステム音声生成部２３１から選択し取得する（ステップ：Ｓ２０４）。信頼度の低かった理解単語(Ｗｎ(b))については、対応する音声区間Ｓｎ，Ｅｎを取得し、該区間におけるユーザの音声信号（ＵＷｎ）を抽出する（ステップ：Ｓ２０５）。このようにして得られたシステム音声(ＳＷｎ)とユーザ音声以外の補足音声部分（ＳＷｘ）をシステム音声生成部２３１より取得する（ステップ：Ｓ２０６）。例えば「が分かりません」「を目的地にします」等の応答音声が補足システム音声に相当する。以上のようにして得られた応答音声用の音声信号、すなわち、上記のシステム音声（ＳＷｎ）、ユーザ音声（ＵＷｎ）および補足システム音声(ＳＷｘ)について、その連結順序を決定する（ステップ：Ｓ２０７）。

次いで、上記のシステム音声（ＳＷｎ）、ユーザ音声（ＵＷｎ）、補足システム音声(ＳＷｘ)それぞれの音声信号について基本周波数、音声エネルギー、ＡＱ値、発話速度の少なくとも何れかについて評価を行い、その差異を算出する（ステップ：Ｓ２０８）。ただし、これら指標を算出する前に、音声以外の雑音状況について簡易的に推定する処理を含めることが好ましい。すなわち、ユーザ音声に雑音が酷く混入するような情況、マイクのボリュームや、取り付け位置、ユーザの音声の大きさ、雑音の大きさ等の関係で入力信号がオーバーフローしてしまうような情況(すなわち音が割れているような状況)では、基本周波数やＡＱ値、発話速度等について正しく評価できない可能性があり、むしろ、この異常状態を直接ユーザに提示するべきである。従って、このような状況を検出した場合には後述の音声信号加工処理にて例外処理(加工の中止処理)を行う。尚、雑音の推定手法については、各種フィルタを通し、音声周波数帯を強調あるいは抑圧した信号のスペクトルから判断する方法、雑音を事前知識として与える方法等、公知の手法を用いることができる。また、オーバーフローに関しては、入力信号を監視することで検出可能である。

一方、発話速度の算出については、本実施の形態２における特有の処理であるが、雑音が含まれない場合であっても発話速度についての考慮が必要である。すなわち、システム音声(ＳＷｎ)及び補足システム音声(ＳＷｘ)については実施の形態１同様、予め出力する音声に対応する単語列を保持しておくことでモーラ数が算出できる(音声合成であれば、合成の命令に用いる単語列から算出可能)が、ユーザ音声(ＵＷｎ)については、信頼度が低い場合、そもそもモーラ数が正しく判断できない可能性がある。そこで、理解単語(Ｗｎ（ｂ）)が検出されたときの他の候補単語のモーラ数を比較し、その分散が低い場合はそのままＵＷｎのモーラ数を用いるか、あるいは前記候補単語の平均モーラ数とし、一方分散が大きい場合は、例えば文献（川本
真一他, “動的尺度を用いた発話速度の推定,” 電気関係学会北陸支部連合大会講演論文集, F-69, p.369, Oct 1999）、あるいは文献（特開平7−295588 発話速度推定方法）のような公知の方法を用いて直接発話速度を推定することが好ましい。

ステップ：Ｓ２０８で算出した声質の差異に基づき、図４で示したような対応関係を参照して、聞き落とし可能度の算出を行い（ステップ：Ｓ２０９）、得られた聞き落とし可能度が所定の閾値(ＨＴ)を超えるか否かの判定を行う（ステップ：Ｓ２１０）。閾値を越える場合（ステップ：Ｓ２１０ＮＯ）はステップ：Ｓ２１１へ、超えない場合（ステップ：Ｓ２１０ＹＥＳ）はステップ：Ｓ２１３へ移行する。前者の場合、すなわち閾値を越える場合は加工対象とする音声信号の選択を行う（ステップ：Ｓ２１１）。この例ではシステム音声(ＳＷｘ)及び補足システム音声(ＳＷｘ)が選択されている。この選択操作に続いて選択された音声信号の加工処理（ポーズの挿入、基本周波数のシフト、音声エネルギーのシフト、話速変換等）が行われ、加工された音声信号ＳＷｎ’、ＳＷｘ’を求める（ステップ：Ｓ２１２）。加工処理の後、ステップ２０８に戻り、再度声質の差異を算出する。例えば一回目の差異算出にて基本周波数の算出を行い、次の処理では音声エネルギーの差異を算出する等とすることで、複数の指標についての差異に基づく聞き落とし可能度軽減の加工を施すことができる。尚、前述したように、ユーザ音声部分に雑音が多く含まれている状況、入力信号のオーバーフローの状況を検出した場合には、例外処理として加工を行わずに出力する方法を取ることが好ましい。

以上の処理を実行し、加工後の音声を含む出力音声(ＳＷｎ’、ＳＷｘ’、ＵＷｎ)の聞き落とし可能度が閾値以下となると、加工の結果および結合順序に基づき音声信号の結合を行う。すなわち、ステップ：Ｓ２０７で取得した結合順序に基づき、音声信号を結合し、（ＳＷｎ’＋ＵＷｎ＋ＳＷｘ’）を得る（ステップ：Ｓ２１３）。最後に、以上のようにして得られた結合音声を応答音声として出力（ステップ：Ｓ２１４）して一連の処理を終了する。

上述した一連の構成及び処理により、ユーザの音声とシステム音声とを結合して出力する場合に、聞き落しが発生するのを抑制するように加工した音声を提示することが出来るようになる。

（実施の形態３）
本実施の形態３は、音声理解部において信頼度が高いと判断された単語については対応する単語の音声合成を行い、信頼度が低いと判断された単語についてはユーザ音声を音素認識した結果の音素列を用いて音声合成するものである。
本実施の形態３の基本的構成は実施の形態２と共通であり、図１４に示す音声入力部１１０、音声理解部２２０、応答音声管理部３３０、応答音声出力部３４０の各部から構成される。
各機能も基本的な部分は第２実施形態共通である。以下には異なる部分(応答音声管理部３３０、及び応答音声出力部３４０)について説明する。
応答音声管理部３３０は、システム音声用の出力単語列あるいは音素列(以下システム音素列)を生成するシステム音声生成部３３１と、ユーザ音声を抽出するユーザ音声抽出部３３２と、該ユーザ音声抽出部３３２によって抽出されたユーザ音声に対して、音素認識を行いユーザ音素列を取得する音素認識部３３３とから構成され、音声理解部２２０の理解内容に基づき、システム音素列及びユーザ音素列を組み合わせた結合音素列を生成する機能を持つ。

音素認識部３３３は、一般的に音素タイプライタ、あるいはサブワード認識と呼ばれる簡便かつ計算負荷の小さい認識方法であり、入力信号に対して、「ａ」「ｋａ」「Ｎ」のような音素単位の認識を行うものである。音素認識については、例えば非特許文献(大脇浩, 榑松明, ハラルドシンガー, 鷹見淳一(ATR), “音素配列構造の制約を用いた音素タイプライタ,” 信学技報, SP93-113,
pp.71-78,1993)等で紹介されている。応答音声出力部３４０は音声合成部３４１で構成されており、応答音声管理部３３０から得られた結合音素列を入力として音声合成を実行し、この応答音声信号を出力する応答音声出力部３４０を介して出力する。

図１５に具体的な動作例を示す。図１５（ａ）は図１２（ａ）と同じ発話入力及び理解結果（１）および（２）、図１５（ｂ）は図１２（ｃ）と同じ発話入力及び理解結果（３）が得られる状況である。
理解結果（１）の場合、「神奈川県」及び「横浜駅」双方の信頼度が高いため、双方の単語に対応する音素列「ｋａｎａｇａｗａｋｅｎ」及び「ｙｏｋｏｈａｍａｅｋｉ」を取得し、応答例１の合成音声「ｋａｎａｇａｗａｋｅｎｎｏｙｏｋｏｈａｍａｅｋｉｗｏｍｏｋｕｔｅｋｉｃｈｉｎｉｓｅｔｔｅｉｓｈｉｍａｓｕ(神奈川県の横浜駅を目的地に設定します)」が出力される。

理解結果（２）の場合、「神奈川県」の信頼度は高く、「横浜駅」の信頼度は低い。従って、「神奈川県」については対応する音素列「ｋａｎａｇａｗａｋｅｎ」を取得する。一方「横浜駅」の部分は、対応するユーザ音声を抽出し、音素認識処理を行う。この結果として、例えば「ｏｋｏａｍｅｅｋｉ（おこあめえき）」が得られる。この二つを組み合わせ、応答例(２)の合成音声「ｋａｎａｇａｗａｋｅｎｎｏ “ｏｋｏａｍｅｅｋｉ” ｎｏｂｕｂｕｎｇａｗａｋａｒｉｍａｓｅｎｎｄｅｓｈｉｔａ (神奈川県の“ｏｋｏａｍｅｅｋｉ”の部分がわかりませんでした)」が出力される。

理解結果（３）の場合、「神奈川県」は高信頼度で得られるものの、それ以降「の横浜駅に行く」の部分(区間Ｃ２〜Ｃ３)について、雑音のために十分な信頼度が得られない。そこで、区間（Ｃ２〜Ｃ３）について音素認識を行う。認識結果として、「ａｋｕｏｅｏｍｏｋｅｕｅｉｋｏ」のような入力音声とは大きく乖離した結果が得られる。これと「神奈川県」に対応する音素列「ｋａｎａｇａｗａｋｅｎ」とを組み合わせ、「ｋａｎａｇａｗａｋｅｎｎｏ “ａｋｕｏｅｏｍｏｋｅｕｅｉｋｏ” ｎｏｂｕｂｕｎｇａｗａｋａｒｉｍａｓｅｎｎｄｅｓｈｉｔａ (神奈川県の“ａｋｕｏｅｏｍｏｋｅｕｅｉｋｏ”の部分がわかりませんでした)」が出力される。

この音素認識の不確かさがそのままユーザに提示されるため、ユーザは何処がどのくらい分からなかったのかを知ることができ、以降の対話が円滑になる。ただし、上記の出力を全て同じ音声合成器を用いて生成する場合、「ｋａｎａｇａｗａｋｅＮｎｏｏｋｏａｍｅｅｋｉｎｏｂｕｂｕｎｎｇａｗａｋａｒｉｍａｓｅｎｎｄｅｓｈｉｔａ（神奈川県のおこあめえきの部分がわかりませんでした）」のように、そのまま連結した音素を出力すると、どの部分が分からないのかが正確に伝わらない可能性も考えられるので、例えば”ｏｋｏａｍｅｅｋｉ”の直前にポーズを挿入するなどの処理を施すことが好ましい。

以下、これらの処理の具体的な流れを、図１６のフロー図を用いて説明する。先ず、ユーザ音声に対して認識処理を行い（ステップ：Ｓ３０１）、次いで、この認識処理の結果として、理解内容（Ｗｎ，Ｃｎ）を取得する（ステップ：Ｓ３０２）。ここでＷｎは理解した単語、Ｃｎは該単語の信頼度、ｎは理解した単語の通し番号の数（ｎ＝１．．．Ｎ）、Ｓｎはｎ番目の単語の時間軸上での開始位置、Ｅｎは同じく時間軸上での終了位置である。この取得された理解内容の理解単語全て（Ｗｎ）について、信頼度（Ｃｎ）と信頼度閾値（ＴＨ）との比較を行う（ステップ：Ｓ３０３）。ここで閾値より大きい、すなわち信頼度が高い場合（ステップ：Ｓ３０３ＹＥＳ）にはステップ：Ｓ３０４へ、閾値より小さい、すなわち信頼度が低い場合（ステップ：Ｓ３０３ＮＯ）にはステップ：Ｓ３０５へ移行する。

信頼度の高い理解単語（Ｗｎ（a））に対してはシステム音素列（Ｓｐｎ）を取得する（ステップ：Ｓ３０４）。また、信頼度の低い理解単語（Ｗｎ（b））については対応する音声区間Ｓｎ、およびＥｎを取得し、当該区間におけるユーザの音声信号（ＵＷｎ）を抽出する（ステップ：Ｓ３０５）。このようにして抽出したユーザ音声信号（ＵＷｎ）に対して音素認識を実行し（ステップ：Ｓ３０６）、続いてこの音素認識結果（ＵＰｎ）を取得する（ステップ：Ｓ３０７）。さらに上記システム音素列(ＳＰｎ)とユーザ音素列（ＵＰｎ）以外の補足部分の音素列（ＳＰｘ）取得を行う（ステップ：Ｓ３０８）。例えば「が分かりません」「を目的地にします」等の音素列がこれに相当する。このようにして上記システム音素列（ＳＰｎ）、ユーザ音素列（ＵＰｎ）および補足システム音素列(ＳＰｘ)が取得されたところで、これ等各音素列について、(例えばＳＰｎ⇒ＵＰｎ⇒ＳＰｘ)のようにその連結順序を決定する（ステップ：Ｓ３０９）。以上、各処理が完了したところで連結音順序に沿った連結音素列に基づいて音声合成を行い、出力する（ステップ：Ｓ３１０）。

以上説明した一連の構成及び処理手段により、全ての出力音声を同一の音声合成手法を用いて再生できるため、声質に差異を生じることがない。従って聞き落としの可能性を大きく抑制することが可能となる。
尚、本実施の形態３では、音声合成のみを用いて出力音声を生成する場合について説明したが、システム音声としてナレータの録音音声を使う音声生成方法と組み合わせ、実施の形態１あるいは実施の形態２の場合と同様に、聞き落とし可能度検出に基づく音声の加工を行う処理を付加しても良い。

：実施の形態１の基本的構成を示したブロック図。：実施の形態１の装置構成を示すブロック図。音声認識における認識辞書例を示した辞書構成図。声質の差異と聞き落とし可能度との対応図。聞き落とし可能度とポーズ挿入時間の対応図。ポーズを挿入した結合音声生成の場合の音声波形図。基本周波数シフトを介した結合音声生成の場合の音声波形図。音声エネルギーシフトを介した結合音声生成の場合の音声波形図。話速変換を介した結合音声生成の場合の音声波形図。実施の形態１における処理の流れを示したフロー図。実施の形態２の基本構成を示すブロック図。実施の形態２の理解結果と応答例を示す波形図。実施の形態２における処理の流れを示したフロー図。実施の形態３の基本的な構成を示したブロック図。実施の形態３の理解結果と応答例を示した図。実施の形態３における処理の流れを示したフロー図。

符号の説明

１１０：音声入力部１２０、２２０：音声理解部
１３０、２３０，３３０：応答音声管理部
１３０ａ〜１３０ｎ：音声生成部
１４０、２４０、３４０：応答音声出力部
１４１，２４１：聞き落とし可能度検出部
１４２、２４２：音声調整部２０１：マイクロフォン
２０２：ＡＤ変換部２０３：演算装置
２０４：記憶装置２３１，３３１：システム音声生成部
２３２、３３２：ユーザ音声抽出部３３３：音素認識部
３４１：音声合成部

Claims

少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
出力音声を生成する少なくとも二つ以上の音声生成部と、
前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
前記結合音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
を備えることを特徴とする音声対話装置。
請求項１に記載の音声対話装置において、
前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有していることを特徴とする音声対話装置。
請求項１または請求項２に記載の音声対話装置において、
前記音声理解部は前記音声入力部からの音声信号に対応する単語列を認識し、該単語毎の認識信頼度を付与して前記理解結果として出力する機能を有し、
前記応答音声管理部は前記音声信号の理解結果に基づき前記信頼度が高いと判断された単語については前記システム音声信号を選択し、前記信頼度が低いと判断された単語については前記ユーザ音声信号を選択し、且つ該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成する機能を有することを特徴とする音声対話装置。
請求項１乃至請求項３のいずれかに記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、該乖離が大きい場合、前記聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有すること、を特徴とする音声対話装置。
請求項４に記載の音声対話装置において、
前記音響的特徴は、基本周波数、エネルギー値、AQ値（Amplitude Quotient）の少なくとも何れかであること、を特徴とする音声対話装置。
請求項１乃至請求項３の何れかに記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出する機能を備え、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減する機能を有すること、を特徴とする音声対話装置。
請求項１乃至６に記載の音声対話装置において、
前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、を特徴とする音声対話装置。
請求項７に記載の音声対話装置において、
前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に、前記聞き落とし可能度に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入する機能を有すること、を特徴とする音声対話装置。
請求項１乃至３に記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断する機能と、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工する機能を有すること、を特徴とする音声対話装置。
請求項１乃至３に記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出する機能を備え、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断する機能と、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整する機能を有すること、を特徴とする音声対話装置。
少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列を理解結果として取得する音声理解部と、
ユーザが発話した音声の少なくとも一部をユーザ音声として抽出するユーザ音声抽出部と、
前記理解結果に基づき応答音声信号を決定する応答音声管理部と、
該応答音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声管理部は、前記音声理解部で認識された単語列あるいは音素列を生成するシステム音声生成部と、前記抽出されたユーザ音声を音素認識して音素列を抽出する音素認識部とを有し、
前記ユーザ音声の音素列と、前記音声理解部の理解結果に基づく前記システム音声生成部出力の音素列とを組み合わせた出力音素列を生成する機能とを持ち、
前記応答音声出力部は、前記出力音素列に基づき音声合成により出力音声を生成する機能を有すること、を特徴とする音声対話装置。
少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列情報の理解結果を取得し、
出力音声を少なくとも二つ以上生成し、
前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
前記結合音声信号を出力する、
音声対話方法であって、
前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整することを特徴とする音声対話方法。
請求項１２に記載の音声対話方法において、
合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成し、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出し、且つ前記システム音声信号と前記ユーザ音声信号とを結合した前記結合音声信号を応答音声信号として生成すること、を特徴とする音声対話方法。
請求項１２または請求項１３に記載の音声対話方法において、
前記音声信号に対応する単語列を認識し、該単語列に含まれる単語毎の認識信頼度を付与して前記理解結果として出力し、
前記音声信号の理解結果に基づき前記信頼度が高い認識単語については前記システム音声信号を選択し、前記信頼度が低い認識単語については前記ユーザ音声信号を選択し、該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成すること、を特徴とする音声対話方法。
請求項１２乃至請求項１４のいずれかに記載の音声対話方法において、
前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、該乖離が大きい場合、前記聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴を調整すること、を特徴とする音声対話方法。
請求項１５に記載の音声対話方法において、
前記音響的特徴は、基本周波数、エネルギー値、AQ値（Amplitude Quotient）の少なくとも何れかであること、を特徴とする音声対話方法。
請求項１２乃至請求項１４の何れかに記載の音声対話方法において、
前記結合音声に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出し、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減すること、を特徴とする音声対話方法。
請求項１２乃至１７に記載の音声対話方法において、
前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、
を特徴とする音声対話方法。
請求項１８に記載の音声対話方法において、
前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に聞き落とし可能度の前記所定の値に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、を特徴とする音声対話方法。
請求項１２乃至１４に記載の音声対話方法において、
前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断し、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工することを特徴とする音声対話方法。
請求項１２乃至１４に記載の音声対話方法において、
前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出し、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断し、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整することを特徴とする音声対話方法。
少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列を理解結果として取得し、
ユーザが発話した音声の少なくとも一部をユーザ音声として抽出し、
前記理解結果に基づき応答音声信号を決定し、
該応答音声信号を出力し、
前記抽出されたユーザ音声を音素認識して音素列を抽出し、
該音素列と、前記理解結果に基づく音素列とを組み合わせた出力音素列を生成し、
前記出力音素列に基づき音声合成により出力音声を生成すること、を特徴とする音声対話方法。