JP2013205842A

JP2013205842A - プロミネンスを使用した音声対話システム

Info

Publication number: JP2013205842A
Application number: JP2013032801A
Authority: JP
Inventors: Heckmann Martin; ヘックマンマーティン
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2012-03-29
Filing date: 2013-02-22
Publication date: 2013-10-07
Anticipated expiration: 2033-02-22
Also published as: EP2645364A1; JP6154155B2; US20130262117A1; EP2645364B1; US9202466B2

Abstract

【課題】
音声対話システムにおいて、直観的でロバストな人間−機械対話を可能とする。
【解決手段】
本方法は、音響信号を受け入れる少なくとも１つの手段（マイクロフォン等）により、発話を受け入れるステップと、処理エンジンを用い、発話を解析して発話から韻律キューを獲得するステップとを含む。前記韻律キューに基づいて前記発話を評価し、当該発話の各部分のプロミネンスを判定し、前記発話を解析して、当該発話が先の発話中の少なくとも１つの部分を置き換えるための少なくとも１つの部分を含んでいることを示すマーカ特徴（否定の陳述など）を検出する。そして、前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定されたプロミネンスに基づいて決定し、前記置き換える部分を、前記発話中の各部分のプロミネンスに基づいて決定して、前記先の発話を前記置き換える部分を用いて評価する。
【選択図】図１

Description

本発明は、音声ベースの人間−機械対話の分野に関する。より正確には、本発明は、音声信号に含まれる韻律情報を組み込むことによる音声対話システムの改善に関する。

音声対話システムは、人間と機械との間の音声に基づく意思伝達を可能にする。音声対話システムの主要な構成要素は、一般に、音声認識器（speech recognizer）、テキスト音声合成（TTS：text-to-speech）システム、応答生成器（response generator）、対話制御器（dialog manager）、知識ベース（knowledge base）、および自然言語理解モジュール（natural language understanding module）のうちの、少なくとも１つである。

人間のスピーチは、話される言葉だけではなく、その言葉がどのように話されるかによっても構成される。これは韻律、すなわち、音声のリズム、速度、強勢、構造、および／または抑揚に現れ、これらを個別に取り出して、あるいはこれらを組み合わせて、韻律キューとして使用することができる。また、発話の他の特徴を韻律キューとして使用することもできる。

そのような韻律キューは、人間−人間の意思伝達において非常に重要な役割を果たし、例えば韻律キューは、句（節の要素）において発話を構造化し、発話における新規な情報を強調し、疑問と陳述とを区別する。

韻律キューを抽出するための様々な手法が提案されている。しかしながら、韻律情報が音声対話システムにおいて使用されることはまれである。
音声言語解析における「発話」は、典型的には、音声の最小単位とされる。発話は、必ずしもそうとは限らないが一般には無音部で囲まれている。

多くの状況において、従来の音声インタフェースは、ユーザが希望または期待するようには機能しない。従来の音声インタフェースは、特に背景雑音が存在する場合や、予期した話し方と異なる話し方がされた場合には、言葉を誤解することが多い。特に、従来のインタフェースは、音声の韻律、すなわち音声のリズム、速度、強勢、構造および／または抑揚については関知しない。

音声インタフェースは、すでに実用自動車の重要な構成要素となっているが、移動通信機器の制御など、他の分野でも重要であり、その重要性は将来一層高まると考えられる。

しかし、従来の音声インタフェースは、直観的にわかり難く誤りを生じやすい。その１つの理由は、従来のシステムが、音声を、人間が解析するようには解析しないことにある。特に、そのようなシステムは、韻律キューに対して「盲目的（ｂｌｉｎｄ）」である。システムに韻律キューを組み込めば、当該システムはユーザの目的をよりよく理解することができるようになる。特に、韻律キューの組み込みにより、システムは、より直観的になり、従ってロバストなものとなる。

最も有意な言葉に強勢を置くことは非常に自然な話し方である。このことを考慮すれば、人間−機械対話はより一層自然に、従って人間にとってより容易なものとなる。

後述するように、人間に説明が求められている場合には、強勢を考慮することは特に有用である。従来のシステムでは、説明が行われたり説明が求められている場合でも、発話のどの部分が誤解されていたのかについては関知しない。したがって、その後に続く人間による訂正についての解釈に際し、システムは、最初の発話を解読したときと同じやり方で当該訂正についての発話を解読する。しかしながら、人間は、誤解された語を訂正する際に、その誤解された語を強調する傾向がある。システムに、この強調、すなわちプロミネンスを抽出する能力を与えることにより、システムは追加情報を得ることになり、人間と機械との間の対話が改善される。

音声処理のコンテキストにおいて韻律キューを抽出するための多数の手法がある（非特許文献１〜３参照）。自動音声理解の改善に用いる場合に、複数の音声コーパスからこの情報を抽出し、コーパスの自動音訳（transcription）の改善に用いることが知られている（非特許文献４〜９参照）。ごく最近のシステムとして、韻律を用い、言葉に高低アクセントに応じた異なるスコアを与えることにより、放送ニュースの認識スコアを改善するシステムが知られている（非特許文献１０）。このシステムでは、解析される放送ニュースの韻律キューが、基本周波数だけに基づいて決定されている。

韻律使用に関し、良く知られた１つの事例はＶｅｒｂｍｏｂｉｌ（バーブモービル）プロジェクト（１９９３〜２０００）（非特許文献１１）である。このプロジェクトの目標は、異なる言語を話す人々がコンピュータの支援により相互に口頭で意思伝達できるようにすることである。これを行うため、起点言語での発話の認識が行われ、認識された発話が目標言語に翻訳され、次いで目標言語が再統合されて、出力される。

韻律キューを用い、言葉のプロミネンス情報に基づいて文意の違いを明確にし、韻律的句形成（prosodic phrasing）に関する情報を用いることにより文の句形成を誘導している。導入されたキューは、基本周波数、強度、および持続期間に基づくものである。

他の研究では、視覚チャネル、特に、口領域、眉毛、および頭の動きにおける視覚チャネルも、韻律情報を伝えることが示されている（非特許文献１２〜１６参照）。少数の研究ではあるが、話者の顔に設けられたマーカを用いて視覚的韻律情報を自動的に抽出することも知られている（非特許文献１７〜１８参照）。

特許文献１には、韻律特徴を利用して対話行為の標識付け（dialog act tagging）を行うシステムおよび方法が記載されている。対話行為（疑問、躊躇など）は、韻律特徴に基づいている。

特許文献２には、感情検出装置、および分散システムにおいて使用するための方法が記載されている。この文献では、ユーザの感情状態が推測されている。

特許文献３には、音声合成の際に言葉のプロミネンスを予測する方法および装置が記載されている。プロミネンスはテキストから推定され、音声合成の際に使用される。

米国特許第７９９６２１４号明細書米国特許出願公開第２００６／０１２２８３４号明細書米国特許第７７７８８１９号明細書

Wang, D. & Narayanan, S., An acoustic measure for word prominence in spontaneous speech, Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2007, 15, 690-701 Sridhar, R.; Bangalore, S. & Narayanan, S., Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework, Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2008, 16, 797-811 Jeon, J. & Liu, Y., Syllable-level prominence detection with acoustic evidence, INTERSPEECH, 2010 Wang, M. & Hirschberg, J., Automatic classification of intonational phrase boundaries, Computer Speech & Language, Elsevier, 1992, 6, 175-196 Shriberg, E.; Stolcke, A.; Jurafsky, D.; Coccaro, N.; Meteer, M.; Bates, R.; Taylor, P.; Ries, K.; Martin, R. & Van Ess-Dykema, C., Can prosody aid the automatic classification of dialog acts in conversational speech?, Language and speech, SAGE Publications, 1998, 41, 443 Shriberg, E.; Stolcke, A.; Hakkani-Tur, D. & Tur, G., Prosody-based automatic segmentation of speech into sentences and topics, Speech communication, Elsevier, 2000, 32, 127-154 Ang, J.; Liu, Y. & Shriberg, E., Automatic dialog act segmentation and classification in multiparty meetings, Proc. ICASSP, 2005, 1, 1061-1064 Liu, Y.; Shriberg, E.; Stolcke, A.; Hillard, D.; Ostendorf, M. & Harper, M., Enriching speech recognition with automatic detection of sentence boundaries and disfluencies, Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2006, 14, 1526-1540 Rangarajan Sridhar, V.; Bangalore, S. & Narayanan, S., Combining lexical, syntactic and prosodic cues for improved online dialog act tagging, Computer Speech & Language, Elsevier, 2009, 23, 407-422 Jeon, J.; Wang, W. & Liu, Y., N-best rescoring based on pitch-accent patterns, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, 2011, 732-741 Noth, E.; Batliner, A.; Kiebling, A.; Kompe, R. & Niemann, H., Verbmobil: The use of prosody in the linguistic components of a speech understanding system, IEEE Trans. Speech and Audio Proc., IEEE, 2000, 8, 519-532 Graf, H.; Cosatto, E.; Strom, V. & Huang, F., Visual prosody: Facial movements accompanying speech, Int. Conf. on Automatic Face and Gesture Recognition, 2002, 396-401 Munhall, K.; Jones, J.; Callan, D.; Kuratate, T. & Vatikiotis-Bateson, E., Visual prosody and speech intelligibility, Psychological Science, SAGE Publications, 2004, 15, 133 Beskow, J.; Granstrom, B. & House, D., Visual correlates to prominence in several expressive modes, Proc. of Interspeech, 2006, 1272-1275 Krahmer, E. & Swerts, M., Audiovisual prosody-introduction to the special issue, Language and speech, 2009, 52, 129-133 Prieto, P.; Pugliesi, C.; Borras-Comes, J.; Arroyo, E. & Blat, J., Crossmodal Prosodic and Gestural Contribution to the Perception of Contrastive Focus, Proc. INTERSPEECH, 2011 Dohen, M.; Loevenbruck, H.; Harold, H. et al. Visual correlates of prosodic contrastive focus in French: Description and inter-speaker variability, Proc. Speech Prosody, 2006 Cvejic, E.; Kim, J.; Davis, C. & Gibert, G. Prosody for the Eyes: Quantifying Visual Prosody Using Guided Principal Component Analysis, Proc. INTERSPEECH, 2010

よって本発明の狙いは、音声対話システムの改善であり、特に、人間−機械間意思伝達のための音声インタフェースの改善である。この目的は、独立請求項に記載の方法およびシステムによって達成される。有利な実施形態が従属請求項において定義される。

一態様において、本発明は、音声対話システムにおいて音声を解析する方法を提供する。本方法は、音響信号を受け入れる少なくとも１つの手段、特にマイクロフォンにより、発話を受け入れるステップと、少なくとも１つの処理エンジンを用い、前記発話を解析して前記発話から韻律キューを獲得するステップと、を含む。そして、前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、前記発話を解析して、当該発話が先の発話中の少なくとも１つの部分を置き換えるための少なくとも１つの部分を含んでいることを示す少なくとも１つのマーカ特徴、例えば否定の陳述などを検出する。また、前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定して、前記先の発話を前記置き換える部分を用いて評価する。

前記発話は、前記先の発話の訂正であり、かつ、語または文である。
前記プロミネンスは、ランク付けに基づいて判定することができる。
プロミネンスは、発話中の各部分の重要さの程度、例えば話者が発話の各部分に置く強調の程度などを表すものとすることができる。
マーカ特徴は、先の発話の少なくとも部分が繰り返されるときに検出される。

前記発話から所定のプロミネンスを有する少なくとも１つの部分、例えば訂正などを抽出し、前記先の発話中の前記置き換えられるべき部分を抽出し、前記抽出された部分についての少なくとも１つの認識仮説を比較し、この比較から、前記先の発話の前記置き換えられるべき部分についての新しい認識仮説を推測することによって、前記先の発話中の前記置き換えられるべき部分を用いて認識精度を改善することができる。

前記マーカ特徴は、前記発話の最初の部分の前記プロミネンスにより判定されるか、または当該プロミネンスと前記発話の語彙解析との組み合わせにより判定されるものとすることができる。
前記発話は、音声／音響信号および／または映像信号の形で解析されるものとすることができる。前記韻律キューは、前記音声／音響信号、前記映像信号（例えば、好ましくは頭および顔を含むユーザの上体の記録したもの）、または前記音声／音響信号と前記映像信号との組み合わせから抽出されるものとすることができる。

ユーザの頭、顔面筋、口および／または眉毛の動きを用いて、韻律キューを判定することができる。
口領域に圧縮変換を適用することができる。当該変換、特に離散コサイン変換（DCT：Discrete Cosine Transformation）を適用する前に、頭の傾きの修正、したがって前記口領域の傾きの修正を行うことができる。

前記韻律キューを獲得するための情報チャネルごとの信頼度が計算されるものとすることができる。前記発話の異なる部分に対する重要度の割り当て、すなわちプロミネンスの割り当ては、前に計算された信頼度を考慮して異なる情報チャネルを適応的に組み合わせることによって行われるものとすることができる。映像チャネルの信頼度は、照明条件に基づいて計算されるものとすることができる。

他の態様として、本発明は、音声対話システムを提供する。本システムは、音響信号を受け入れて発話を受け入れるための少なくとも１つの手段（２０）、特にマイクロフォンと、前記発話を解析し、前記発話から韻律キューを獲得する少なくとも１つの処理エンジン（４０）と、を備える。そして、本システムは、前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、前記発話を解析して、当該発話が先の発話中の少なくとも１つの部分を置き換えるための少なくとも１つの部分を含んでいることを示す少なくとも１つのマーカ特徴、例えば否定の陳述などを検出する。また、前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定して、前記先の発話を前記置き換える部分を用いて評価する。

本システムは、映像信号などを取り込むための視覚信号を受け入れる映像受入手段、例えばビデオカメラなどを備えるものとしてもよい。
次に図面を参照して本発明のさらに別の局面を説明する。

本発明の一実施形態の概要を示す図である。本発明に係るシステムの、システムレイアウトの一例を示す図である。本発明の一実施形態における処理フロー図である。本発明の一実施形態における、韻律特徴の抽出および統合を示すブロック図である。

図１に、本発明に係る音声対話システム３０の一例の、セットアップの概要を示す。図１では、ユーザ１０の発話が受け取られる。この発話は、例えばマイクロフォンなどの、音響信号を受け入れる手段２０によって受け取ることができる。あるいは、任意選択で、例えば映像信号を生成するカメラなどの視覚信号を受け入れる手段２５も用いて、発話を受け取ることができる。本音声対話システムは、手段２０、２５によって受け取った信号を処理する処理エンジン４０を備える。特に、処理エンジン４０は、音声認識器、テキスト音声合成（ＴＴＳ）システム、応答生成器、対話制御器、知識ベースおよび自然言語理解モジュール、語彙解析器モジュール（lexical analyzer module）またはこれらの組み合わせのうちの少なくとも１つを提供する。図１には処理エンジン４０が単一のブロックとして示されているが、処理エンジン４０の全ての要素が別々のモジュールとして実現されるものとしてもよい。

さらに、音声対話システム３０は、処理手段５０と記憶手段６０とを備えるか、またはこれらの手段に機能的に接続されている。上記処理エンジンは、処理手段５０を用い、処理時に記憶手段６０を使用する。また、音声対話システム３０は、ユーザ１０または他のシステムと通信するためのインタフェース７０を備えることができる。例えば、上記他のシステムとして、ナビゲーションシステム、制御ユニット、支援システムなどと通信することができる。またこれらのシステムは、ソフトウェアアプリケーションとして実現されるものとすることができる。この場合には、インタフェース７０は、ハードウェアインタフェース又はソフトウェアインタフェースとすることができる。

通常、センサからの入力信号または入力パターンは、音声対話システム３０により受け取られた後、ハードウェアユニットおよびソフトウェアコンポーネントによって処理され、出力信号または出力パターンが生成される。この出力信号または出力パターンは、更なる処理を行うための他のシステムへの入力として用いることができる。例えば、視覚化を行う他のシステム、あるいは、ナビゲーション装置、車両、ロボットの制御や、（移動）通信機器、家電機器の制御などを行う他のシステムへの入力とすることができる。入力信号は、例えば視覚的情報または音響的情報の検知を行う１つまたは複数のセンサにより供給されるものとすることができるが、ソフトウェアまたはハードウェアインタフェースを介して供給されるものとしてもよい。出力信号／出力パターンは、別の処理ユニットまたは作動装置に転送することができ、これにより、ロボット、車両または移動通信機器の動作または挙動に影響を与えることができる。

音声対話システム３０に必要な演算や変換は、処理手段５０によって行われるものとすることができる。処理手段５０は、１つまたは複数のプロセッサ（ＣＰＵ）、信号処理ユニット、若しくは、他の計算、処理、又は演算処理を行うハードウェア及び／又はソフトウェア等とすることができる。また、処理手段５０は、並列処理が実行できるように構成されるものとすることができる。

処理および演算処理は、標準的な市販（OTS、off-the-shelf）のハードウェアで実行することもできるし、専用に設計されたハードウェアコンポーネントにより実行することもできる。プロセッサのＣＰＵは、計算処理を行うものであり、メインメモリ（ＲＡＭ、ＲＯＭ）、制御ユニット、および／または算術論理演算装置（ALU、arithmetic logic unit）を備えるものとすることができる。また、ＣＰＵは、専用のグラフィックプロセッサを利用するものとすることができ、当該専用グラフィックプロセッサは、必要な計算処理を扱うための専用のメモリと処理能力とを提供することができる。

記憶手段６０は、処理およびその結果のために必要とされる情報および／または得られたデータを記憶するのに用いられる。また、記憶手段６０は、音声対話システム３０への入力、および当該入力から抽出され将来の入力処理に影響を及ぼすこととなる知識を保存又は記憶することもできる。このような知識として、例えば、音声認識方法、認識データ、認識仮説などがある。

記憶手段６０は、ハードディスク（ＳＳＤ、ＨＤＤ、フラッシュメモリ）、ＲＡＭおよび／またはＲＯＭといったデバイスにより構成することができ、補足的に、フロッピーディスク、ＣＤ−ＲＯＭ、テープ、ＵＳＢドライブ、スマートカード、ペンドライブなどといった他の（携帯用）記憶媒体を用いることもできる。したがって、本発明に係る方法を符号化するプログラムや、本発明に係るシステム及び又は方法の実施時に又は当該実施のために取得され、処理され、学習され、または必要とされるデータを、個々の記憶媒体に記憶することができる。

特に、本発明により記述される方法は、（例えば携帯用の）物理記憶媒体上のプログラム製品として提供されるものとすることができる。当該記憶媒体は、処理システムまたはコンピュータ機器に対し本発明に係る方法を実行するよう命令を与えるべく、本ソフトウェアプログラム製品を当該システム又は機器に転送するのに用いられる。さらに、本方法は、コンピュータ機器上で直接的に実施することもできるし、コンピュータ機器と組み合わせて提供することもできる。

本発明の一態様は、話者による発話の中の異なる部分の重要度に関する情報を抽出し、その情報を音声対話システムにおいて使用するものであり、その一例が図２に示されている。これらの重要度は、対応する発話部分に置かれた異なる強調レベルとなって音響信号中に表れる。言語学では、発話中の他の部分に対して相対的に強調された当該発話中の部分を、強勢またはプロミネンスと称する。この意味で、これらの相対的強調部分は突出しており、したがって際立っている。プロミネンスは、例えば、発話の最も情報量の多い部分を示すのに使用される。

発話を表す音響信号から抽出された特徴に基づき、発話の各部分に異なるレベルのプロミネンスを割り当てることができる。そして、異なるレベルのプロミネンスを、話者が意図したように発話の重要度のランクにマップすることができる。音声対話システムは、この重要度ランク付けの情報を使用してユーザとの対話を改善することができる。

本発明に係る一の実施形態は、図３に示すような、訂正対話を改善するものである。従来の音声対話システム、特に音声認識システムでは、当該システムはユーザを正しく理解できないことが多い。音声対話システムがそのような認識誤りを自動的に検出することができる場合もあるが、ほとんどの場合、このような認識誤りは、システムに検知されることなく発生する。

人間同士が意思伝達を行う場合、人間は普通、誤解が生じたことを表すのに、「いいえ」、「いいえ、私が言いたいのは…」、「いいえ、私が言ったのは…」などとして否定信号を使用する。以下の仮想の対話を例にとる。
人間Ａ：私は車でマイザッハ（Maisach）へ行きたいです。
人間Ｂ：あなたはミュンヘン（Munich）のどの辺りへ行きたいのですか？
人間Ａ：いいえそうではなく、私はマイザッハへ行きたいのです！

例示のように、意思伝達の当事者らは、誤解のすぐ後に、先に言ったことの全部または一部を繰り返す。この繰り返しの際に、意思伝達の当事者らは、前に誤解された語を最も際立つ語にする傾向がある。というのは、その語が当事者らにとって現在最も重要な語だからである（上記の例では、プロミネンスは下線により示されている）。

その場合、人間の聞き手は、まず否定信号から誤解が生じたことを推測し、次にプロミネンスに基づいて誤解されたと想定される語を検出することができる。このシナリオでは、韻律キューは、誤解された語を検出するのに非常に重要であるだけでなく、否定信号を検出するのにも重要である。またこれらの否定信号は普通、高レベルのプロミネンスで発話される。

従来の音声対話システムは、韻律キューを解釈することができないため、ユーザから訂正が行われるような状況においては著しい困難に直面することになる。

本発明は、音声対話システムに、発話の異なる部分のプロミネンスを推測して対話管理において使用する能力を与える方法を提示する。前述の人間と人間との意思伝達の例を人間−機械間の対話へ移し替えるときに、本発明で提案するシステムは、先の対話行為において誤解が生じたことを、否定信号「いいえ」を当該否定信号に付与された高いプロミネンスと共に認識することで検出することができる。
人間：私は車でマイザッハへ行きたいのです。
機械：あなたはミュンヘンのどの辺りへ行きたいのですか？
人間：いいえそうではなく、私はマイザッハへ行きたいのです！
機械：すみません。あなたはマイザッハのどの通りへ行きたいのですか？

本機械は、否定信号「いいえ」のマーカ特徴を認識した後で、非常に高いプロミネンスを有するさらに別の語（「マイザッハ」）を探索し、この語が先の発話において誤解されたと推測する。次に、本機械は、前の対話行為で誤りが生じたことを当該機械が理解していることをユーザに知らせ、その時訂正された語を用いて対話を進めることができる。このとき、システムが誤りを突き止めたことをさらに強調するため、ユーザへのフィードバックにおいてプロミネンスを使用することもできる。このような手法は人間によっても使用される。総じてそのようなシステムは、より少ないやりとりで、より効率の良い、すなわちより迅速な対話ができることを特徴とし、またより自然で直観的な対話ができることを特徴とする。

マーカ特徴は、特に別の言語では別の特徴となり得ることを理解する必要がある。またマーカ特徴は、発話におけるある一定の抑揚、強勢、構造などとすることもできる。

また、全体として誤解が生じていることや、発話のどの部分に誤解が生じたかを検出する際には、発話の関連部分についての正しい認識は必要ない。誤解の発生やその箇所についての情報は、個々の部分のプロミネンスから推測することができ、例えば、発話の最初の非常に際立つセグメントは、誤解訂正のための発話であることを示す有効な兆候である。

従来の音声対話システムでは、誤解が生じたことを検出することができず、その結果として、先に行われた対話行為からのコンテキスト情報を容易に使用することができない。

しかしながら、本システムは通常、そのような訂正対話において同じ語の２つの変形（例えば「マイザッハ」の、誤解された語と訂正された語）にアクセスする。これにより、語が２回発せられた後には、より良好な認識を得ることができる。

その語についての２つのインスタンスの検出に際しては、当該語を認識する必要はない。本発明では、その代わりに、訂正発話中の語のプロミネンスを用いて、その前に誤解され又は誤って解釈された発話中の語を検出する。１つのインスタンスが見つかると、次にやや単純なパターン照合法を使用して先の対話行為における同じ語を再度見つけることが可能になる。これが可能となるのは、同じ話者が少なくとも非常に類似した環境で当該語を発するためである。

これができると、その語のこれらインスタンスの双方についての、最も可能性の高い認識仮説、及びそれよりも可能性の低いいくつかの認識仮説を計算することができる。これらの仮説を比較することで、新しい情報を獲得し、全般的な認識精度を改善することができる。

双方のインスタンスにおいて、認識スコアにより仮説を順序付けたとき、例えば、「ミュンヘン」（０．９）、「マイザッハ」（０．８）、「マインツ（Ｍａｉｎｚ）」（０．５）となったとする（括弧内は認識スコアである）。このときは、単に２番目に可能性の高いものを選択することが優れた戦略となるはずである。すでに「ミュンヘン」は誤りであると確認されているからである。２つのインスタンスに対して順序付けが異なる場合、例えば、最初：「ミュンヘン」（０．９）、「マインツ」（０．８）、「マイザッハ」（０．７）であり、訂正：「ミュンヘン」（０．９）、「マイザッハ」（０．７）、「マインツ」（０．５）である場合には、「マイザッハ」を選択することが優れた戦略になるはずである。「マイザッハ」は最高の組み合わせスコアを獲得しているからである。

訂正を正しく解釈するためには、以前に行われた対話行為の少なくとも１つが記憶できるシステムの容量確保、一実施形態においては複数の当該対話行為が記憶できる容量確保が前提条件となる。対話行為は、当該対話行為を記録したときと同じ形式で記憶させておくこともできるし、抽象化された特徴表現（abstracted feature representation）として記憶させておくこともできる。

発話の各部分の重要度の尺度、すなわち当該各部分のプロミネンスの尺度を得るために、以下のような音響信号から得られる様々な尺度が提案されている。
スペクトル強度：
ある周波数帯域における、他の周波数帯域と比較した相対的なエネルギーは、プロミネンスとよく相関する。
持続期間：
音節の持続期間の延長は、プロミネンスの特徴である。
ピッチパターン：
あるピッチパターンはプロミネンスを表わしている。

これらの特徴のいくつかについては、ピッチとして知覚される基本周波数を抽出して、その形状を分類する必要がある（参考文献１、２参照）。

スペクトル強度は、音声信号からプロミネンス情報を抽出するための、信頼性が高くて計算処理が可能な、さほどコストのかからない方法の一例である（参考文献３、４参照）。

特に、本発明では、音響信号のみならず話者の頭や顔の動きも利用される（図４を比較されたい）。眉毛、頭、および口領域の動きが発話の各部分のプロミネンスに関する重要な情報を伝えることは、既に知られている（非特許文献１２〜１４）。一般に、韻律キューは、顔面筋その他の、顔又は身体の特徴から得ることができ、例えば腕や手の動きから得ることができる。また、身ぶりから、例えばマーカ特徴（特定の姿勢、例えば否定的な姿勢や、特の動き又は動きのパターンなど）を得ることもできる。

また、そのような特徴を抽出するための方法も利用することができる（非特許文献１７、１８、参考文献５）。顔から視覚的特徴を抽出するための非常に有効なやり方は、例えば離散コサイン変換（ＤＣＴ）などの、変換ベースの手法である（参考文献６）。この場合には、頭部回転の推定や当該推定を行った後の訂正処理も、有利に利用することができる。この頭部回転の推定は、例えばユーザの両目を検出することによって、または口領域の対称軸を計算することによって得ることができる。このタスクに適した、選択的に使用される変換手法として、例えば、主成分変換（PCA、Principal Component Transformation）やフーリエ変換などがある。

プロミネンスの判定において音響情報と視覚情報とを組み合わせる手法は、先行技術から知得することはできず、本発明の一部を為すものである。特に本願発明者らは、音響チャネルおよび視覚チャネルの信頼性尺度を定めて、各チャネルの信頼度に応じて当該各チャネルの統合を行うことを提案している。相異なる様々な尺度、例えば、キューの値の確率モデルに基づく尺度や、現在値とモデルとの比較に基づいた尺度を用いることができる。

すなわち、本発明は、人間−機械対話における韻律的音声特徴を用いて発話の異なる部分の重要度を推測し、この情報を用いて対話をより直観的かつロバストなものにすることができる。

ユーザは韻律を用いてより自然に会話することができ、システムも韻律キューを使用してユーザへフィードバックを与えるので、対話がより直観的なものとなる。このため、認識誤りが低減されて、より高いロバスト性が実現される。

例えば次のような状況が実現される。すなわち、ユーザが句を発話し、システムがその句を誤解する。ユーザは、誤解された部分をより際立たせるように韻律を変更して、システムに対し発話を繰り返す。これは、人間同士が話し合うときに一般に使用される戦略である。システムは、訂正発話の最も際立つ部分、すなわち先の発話において誤解された部分を判定し、次に、例えば訂正発話中の際立った部分とのパターン照合などを行うことにより、最初の発話から誤解部分に対応するセグメントを抽出する。そして、本システムは、この情報を用いて、ユーザが実際には何と言ったのかに関するより適切な仮説を決定する。

本発明の１つの重要な態様は、発話内の異なる部分の重要度の判定、すなわちプロミネンスの判定のために、音響的特徴と視覚的特徴とを組み合わせる点にある。これにより、相異なる複数の情報ストリームの組み合わせが、各情報ストリームの信頼度に応じた組み合わせとなるように適合される。

特に、韻律キューを組み込むことにより、システムはより直観的に、従ってよりロバストになる。最も関連性の高い語に強勢を置くことは、非常に自然な話し方である。これを考慮することにより、人間−機械対話はずっと自然になり、従って人間にとってより容易なものとなる。詳述したように、これは、人間からの説明が必要とされる状況において特に有用となり得る。そのような説明が行われる際、従来のシステムでは通常、最後の発話が説明であったこと、および発話のどの部分が誤解されたかは関知しない。このため、後に続く訂正の解釈において、従来のシステムは、最初の発話を解読したときと同じ方法で訂正発話を解読する。しかし人間は、そのような訂正発話を韻律的に表現し、訂正中で誤解された語を強調する傾向がある。本システムは、訂正を検出した後に、この強調、すなわちプロミネンスを抽出することにより追加情報を獲得するので、人間と機械との対話が改善される。

要約：
本発明は、音声信号から、発話の各部分に話者が置いた異なる重要度を韻律的音声特徴に基づいて判定し、この情報を音声対話システムに組み入れことにより、当該情報を用いて人間機械対話を改善するシステムを提示する。

発話内の部分の重要度はそのプロミネンスによって判定される。発話内の部分のプロミネンスに関するこの情報は、本システムにより次のように用いられる。先の対話行為においてユーザの言葉を本システムが誤解した場合、本システムは、当該先の発話の少なくとも一部分を繰り返すユーザの現在の対話行為から、そのような誤解が生じていることを検出して、先の発話の誤解された部分を検出すると共に、上記情報を用いて、当該発話における誤解部分の認識を改善する。すなわち、本システムは、上記取得した情報を対話管理において使用する。

誤解部分に関する情報は、次のように用いられて、認識精度を改善する。すなわち、繰り返された発話の強調部分（すなわち訂正部分）を抽出して、最初の発話中の誤解された部分を抽出し（例えば、訂正から抽出された部分とのパターン照合などにより抽出する）、ａ．またはｂ．において抽出されたセグメントについての上位Ｎ個の認識仮説を比較し、この比較から、問題の発話の部分についての新しい認識仮説を推測する。

先の対話行為における誤解の検出は、最後に行われたユーザ応答の最初の部分のプロミネンスを、単独で、又は発話の語彙解析と組み合わせて用いることにより行われる。
本システムは、誤解の発生を検出した後、韻律を用いることで、当該誤解され次に訂正された発話部分を際立たせる。

〔用語〕
〈音声対話システム〉
音声対話システムとは、音声によってやりとりされる対話システムである。このシステムは一般に、以下の構成要素のうちの少なくとも１つ、またはこれらの組み合わせを有する。
音声認識器
テキスト音声合成システム
応答生成器
対話制御器
知識ベース
自然言語理解モジュール
〈韻律〉
音声のリズム、強勢、および抑揚
〈プロミネンス〉
語中のある一定の音節や句又は文中のある一定の語に与えられることのある相対的な強調
〈強勢〉
プロミネンス参照

〔参考文献〕
参考文献１：
Heckmann, M.; Joublin, F. & Goerick, C. Combining Rate and Place Information for Robust Pitch Extraction Proc. INTERSPEECH, 2007, 2765-2768
参考文献２：
Heckmann, M. & Nakadai, K. Robust intonation pattern classification in human robot interaction, Proc. INTERSPEECH, ISCA, 2011
参考文献３：
Tamburini, F. & Wagner, P. On automatic prominence detection for German, Proc. of INTERSPEECH, ISCA, 2007
参考文献４：
Schillingmann, L.; Wagner, P.; Munier, C.; Wrede, B. & Rohlfing, K., Using Prominence Detection to Generate Acoustic Feedback in Tutoring Scenarios
INTERSPEECH, ISCA, 2011
参考文献５：
Christian Lang, Sven Wachsmuth, M. H. H. W. Facial Communicative Signals - Valence Recognition in Task-Oriented Human-Robot-Interaction, Journal of Social Robotics, accepted for publication
参考文献６：
Heckmann, M.; Kroschel, K.; Savariaux, C. & Berthommier, F. DCT-based video features for audio-visual speech recognition, Seventh International Conference on Spoken Language Processing (ICSLP), 2002

Claims

音声対話システム（３０）において音声を解析する方法であって、
音響信号を受け入れる少なくとも１つの手段（２０）、特にマイクロフォンにより、発話を受け入れるステップと、
少なくとも１つの処理エンジン（４０）を用い、前記発話を解析して、前記発話から韻律キューを獲得するステップと
を含み、
前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、
前記発話を解析して、当該発話が先の発話中の少なくとも１つの部分を置き換えるための少なくとも１つの部分を含んでいることを示す少なくとも１つのマーカ特徴、例えば否定の陳述などを検出し、
前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、
前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定し、
前記先の発話を前記置き換える部分を用いて評価する、
方法。
前記発話は、前記先の発話の訂正であり、かつ、語または文である、請求項１に記載の方法。
前記プロミネンスは、ランク付けに基づいて判定される、請求項１または２に記載の方法。
前記プロミネンスは、発話中の各部分の重要さの程度、例えば話者が前記発話の各部分に置く強調の程度、を表すものである、請求項１または２に記載の方法。
前記マーカ特徴は、前記先の発話の少なくとも部分が繰り返されるときに検出される、請求項１に記載の方法。
前記発話から所定のプロミネンスを有する少なくとも１つの部分、例えば訂正などを抽出し、前記先の発話中の前記置き換えられるべき部分を抽出し、前記抽出された部分についての少なくとも１つの認識仮説を比較し、この比較から、前記先の発話の前記置き換えられるべき部分についての新しい認識仮説を推測することによって、前記先の発話中の前記置き換えられるべき部分を用いて認識精度を改善する、請求項１に記載の方法。
前記マーカ特徴は、前記発話の最初の部分の前記プロミネンスにより判定されるか、または当該プロミネンスと前記発話の語彙解析との組み合わせにより判定される、請求項１に記載の方法。
前記発話は、音声／音響信号および／または映像信号の形で解析され、
前記韻律キューは、前記音声／音響信号、前記映像信号、または前記音声／音響信号と前記映像信号との組み合わせから抽出され、前記映像信号は、例えば、好ましくは頭および顔を含むユーザの上体を記録したものである、請求項１に記載の方法。
ユーザの頭、顔面筋、口および／または眉毛の動きを用いて、前記韻律キューが判定される、請求項１に記載の方法。
口領域に圧縮変換が適用され、かつ、前記変換、特に離散コサイン変換（DCT：Discrete Cosine Transformation）を適用する前に、頭の傾きの修正、したがって前記口領域の傾きの修正が行われる、請求項１に記載の方法。
前記韻律キューを獲得するための情報チャネルごとの信頼度が計算され、
前記発話の前記異なる部分に対する重要度の割り当て、すなわちプロミネンスの割り当てが、前に計算された信頼度を考慮して前記異なる情報チャネルを適応的に組み合わせることによって行われ、
映像チャネルの前記信頼度は、照明条件に基づいて計算される、
請求項１に記載の方法。
音響信号を受け入れて発話を受け入れるための少なくとも１つの手段（２０）、特にマイクロフォンと、
前記発話を解析し、前記発話から韻律キューを獲得する少なくとも１つの処理エンジン（４０）と
を備え、
前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、
前記発話を解析して、当該発話が先の発話中の少なくとも１つの部分を置き換えるための少なくとも１つの部分を含んでいることを示す少なくとも１つのマーカ特徴、例えば否定の陳述などを検出し、
前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、
前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定し、
前記先の発話を前記置き換える部分を用いて評価する、
音声対話システム（３０）。
請求項１〜１１のいずれか一項に記載の方法を実施するように適合された、請求項１２に記載のシステム。
映像信号を取り込むための視覚信号を受け入れる手段（２５）を備える、請求項１２又は１３に記載のシステム。