JPH08106298A - 対話処理装置及び対話処理方法 - Google Patents

対話処理装置及び対話処理方法

Info

Publication number
JPH08106298A
JPH08106298A JP7181456A JP18145695A JPH08106298A JP H08106298 A JPH08106298 A JP H08106298A JP 7181456 A JP7181456 A JP 7181456A JP 18145695 A JP18145695 A JP 18145695A JP H08106298 A JPH08106298 A JP H08106298A
Authority
JP
Japan
Prior art keywords
utterance
dialogue
information
input
crew
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7181456A
Other languages
English (en)
Other versions
JP3350293B2 (ja
Inventor
Tetsuro Chino
哲朗 知野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP18145695A priority Critical patent/JP3350293B2/ja
Priority to US08/510,277 priority patent/US5761637A/en
Publication of JPH08106298A publication Critical patent/JPH08106298A/ja
Application granted granted Critical
Publication of JP3350293B2 publication Critical patent/JP3350293B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】対話音声の各文あるいは発話の書き下し記述あ
るいは意味記述を必要とせずに、その対話の進行状況を
表す文脈情報を得ること。 【解決手段】対話音声の各発話を入力する手段1と、入
力された発話断片の中から対話の進行状況を表す手掛か
りとなる語であるクルーの候補を抽出する抽出手段3
と、予め設定されたクルーと、対話の進行状況へ与える
効果を表現する発話機能との対応関係である発話機能規
則を記憶した記憶手段6と、該記憶手段の発話機能規則
を参照し、抽出手段によって抽出された各クルー候補に
対して発話機能を夫々割当てる発話機能抽出手段5と、
抽出手段と発話機能抽出手段の少なくとも一方の出力に
基づいて、入力手段に入力された対話音声の各発話間で
の対話の進行状況を表現する談話構造を構成する談話構
造構成手段7とを具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声及び言語を用
いて行われる対話を処理する対話処理装置及び方法に関
する。
【0002】
【従来の技術】近年、音声処理技術及び自然言語解析技
術の発展に伴い、人間の発声する音声言語(はなしこと
ば)による入力によって、計算機によって制御される各
種サービスを利用できるようにすることへの要求が高ま
っている。
【0003】そのための要素技術としては、人間の発声
した音声パターン信号を発声内容を表す言語情報に変換
する等のことを行う音声認識処理や、言語情報からその
構文的な構造や意味内容や発話者の意図等を表す意味表
現へと変換する自然言語処理や意味処理等の処理などが
必要となる。
【0004】ところで、音声による対話は、必ずしも一
文に纏まっているものばかりではなく、断片的なもので
あったり、途中で発話内容が急変したり、途切れたり、
割り込みが入ったりするといった事態が多々起こる。
【0005】一方、従来の音声処理や自然言語解析処理
や意味処理は、基本的には一文(発話)単位で行われる
ようになっており、自然な対話である自由発話対話を処
理するには不向きである。
【0006】そこで、種々研究が重ねられており、音声
による自然の対話を計算機で処理するためには、対話の
上述のような特性から、対話の話題や話の展開といった
文脈に依存する現象を扱う必要があり、これを行うため
には、「文脈情報」を処理する必要があることが明らか
となってきた。
【0007】例えば、音声による対話を処理するために
は、まず、入力音声の認識を行う必要があるが、ここで
は発声された音声に対する認識候補の選択で生じる曖昧
性の解消に、話題等の文脈情報が必要となる。また、入
力音声を自然言語として解析する時点でも、話題となっ
ている語句の省略や、代名詞による指示表現等が使われ
るため、個々の発話を独立に処理するだけでは解析を行
うことができず、文脈情報が必要となる。さらに意味理
解の段階でも、例えば多義語の曖昧解消等にその時点で
の話題等の文脈情報が必要となったり、あるいは「依
頼」や「承諾」といった発話者の「意図」の認識におい
て、個々の発話だけでなく対話全体の話の展開に関する
文脈情報が要求される等というように、音声対話を処理
するためには文脈情報を扱うことが必須である。
【0008】この文脈情報を扱うことが必須である問題
に対して、書き言葉である文章を対象とする自然言語処
理の分野では、談話表示理論や状況意味理論等といった
形式意味論を用いる方法や、「依頼」や「承諾」といっ
た発話意図をオペレータとする階層的なプランニングの
手法によって文脈情報を扱おうとする試みが成されてい
るが、これら従来の方法を用いるためには各文の完全な
書き下し結果、あるいは完全な意味記述が必要となると
いう、前提条件が存在する。
【0009】しかし、音声言語による対話を処理しよう
とする場合には、入力が音声で行われるため、対話中の
各発話の完全な書き下し結果や完全な意味記述の存在を
前提とすることはできない。
【0010】さらに、音声による対話では、例えば主語
や述語といった構文的な構造の整った「文」が発話され
る訳ではなく、文節程度の断片的な発話が発せられた
り、あるいは間投詞や相槌が現れたり、言い直しや言い
淀みといった非文法的な入力が成されたり、あるいは、
書き言葉による文章等と違い、複数の対話参加者が時間
的に重複して発話を行い得る等といった「はなし言葉」
特有の現象があるなどのために、従来の自然言語処理技
術をそのまま利用することができず、対話中の各発話の
完全な書き下し結果や完全な意味記述の存在を前提とす
ることはできない。
【0011】そのため、従来の文脈情報を扱うためのア
プローチを利用することは不可能であり、結果として、
音声認識処理、自然言語解析処理、及び意味処理に「文
脈情報」を用いることは不可能であるという問題点があ
った。
【0012】つまり、対話音声を解析するためには文脈
情報が必要であるが、従来の文脈情報の処理技術は書き
言葉のための自然言語処理のための技術であるため、対
話音声の処理では利用できず、結果として対話音声に対
する文脈に依存する解析を実施することは不可能である
という問題点があった。
【0013】そのため、従来の人−計算機対話システム
では、断片的な発話などによる自然な話し言葉(自由発
話音声言語)による対話を行なうことが不可能であっ
た。
【0014】また、近年の計算機による情報処理技術の
発展にともない、文字情報だけでなく、音声や画像とい
ったさまざまなメディアに亘る情報を処理するマルチメ
ディア情報処理が発展してきている。ここでは、さまざ
まなメディアに亘る情報の間にリンクを張ることによっ
て関連のある情報を順次引き出すことを可能とするハイ
パーテキスト等が開発されている。このような背景の下
で、音声による対話の記憶についても、意味的なまとま
り毎にグループ化あるいは階層化して必要な箇所の検索
を随時に行えるようにするためのその構造化が望まれて
いる。
【0015】従来、書き言葉である文章に対してはその
論旨の展開を表す文脈構造を自動的に抽出するための手
段(特願平4−100168号)等が開発されている
が、音声対話記憶に対しては、従来はこのような階層化
を自動的に行う方法はなく、人間が音声対話記憶を聞き
ながら人手でリンクを張ること等によって音声対話記録
の構造化を行っている。
【0016】しかし、大量に発生する音声対話記録に対
する人手による構造化には限界があり、また人手による
作業では、リンクの不整合等誤りの発生や、構造化を行
うための基準の統一はほぼ不可能であるという問題点が
あった。
【0017】また、日々大量に発生する情報から効率的
に必要な情報を得るために情報を短縮してその内容の概
要を提示するための技術の実現が望まれている。
【0018】従来、書き言葉である文章の短縮化に関し
ては、特定のキーワードの出現や、語句の出現頻度によ
る重要文の抽出による方法や、(特願平4−10016
8号)に示されているような文章の論旨の展開を表す文
脈構造に基づいた抄録生成技術等といった技術が開発さ
れている。
【0019】しかし、音声合成において速い発声速度で
合成した合成音声を聞き易いものとするための文の統語
構造等に基くフレージングの制御(特願平5−6010
号)や、母音等の音響的に安定した時間区間部分の削除
等といった技術が存在するものの、音声(対話)記録を
効率的に短縮化するための技術としては、音声ピッチを
制御した早回し再生程度の技術があるのみであり、対話
音声記録を聞き易い状態で短縮化する方法は存在しない
という問題点があった。
【0020】
【発明が解決しようとする課題】以上により、従来の書
き言葉を対象とする自然言語処理技術の分野における文
脈情報の処理方法では、各文あるいは発話の完全な書き
下し記述あるいは意味記述が要求されるため、対話音声
を対象とする解析処理には利用できないという問題点が
あった。
【0021】音声言語対話では、書き言葉と違って、対
話参加者の各人の発話が時間的に重複し得るため、従来
の書き言葉を対象とする文脈解析技術は利用できないと
いう問題点があった。
【0022】音声対話の解析では、書かれた文章に対す
る解析と異なり、入力された部分から漸次的に処理を行
うことが要求されるが、従来の文脈解析技術では、漸次
的な処理が行えないという問題点があった。
【0023】話し言葉による対話は、言い淀みや言い直
しや相槌や間投詞等を含む推敲されていない断片的な発
話によって構成されるため、推敲された統語的に完全な
文によって構成された書き言葉(文章)を対象とする従
来の文脈解析技術が利用できないという問題点があっ
た。
【0024】また、従来の人−計算機対話システムで
は、断片的な発話などによる自然な「話し言葉(自由発
話音声言語)」による対話を行なうことが出来ないとい
う問題があった。
【0025】本発明は、このような事情を考慮してなさ
れたもので、対話音声の各文あるいは発話の完全な書き
下し記述あるいは意味記述を必要とせずに、その対話の
進行状況を表す文脈情報を得ることのできる対話処理装
置及び方法を提供することにある。
【0026】また、本発明の目的は、断片的な発話など
による自然な「はなしことば」での対話を行なうことの
できる人‐計算機対話システムを提供することにある。
【0027】
【課題を解決するための手段】本発明に係る対話処理装
置は、対話音声の各発話を入力する対話入力手段と、こ
の対話入力手段に入力された発話断片の中から、対話の
進行状況を表す手掛かりとなる語であるクルーの候補を
抽出するクルー抽出手段と、予め設定されたクルーと、
対話の進行状況へ与える効果を表現する発話機能との対
応関係である発話機能規則を記憶した発話機能規則記憶
手段と、この発話機能規則記憶手段の発話機能規則を参
照して、前記クルー抽出手段によって抽出された各クル
ー候補に対して発話機能をそれぞれ割当てる発話機能抽
出手段と、前記クルー抽出手段と前記発話機能抽出手段
の少なくとも一方の出力に基づいて、前記対話入力手段
へ入力された対話音声の各発話間での対話の進行状況を
表現する談話構造を構成する談話構造生成手段とを有し
たものである。
【0028】そして、談話構造はひとかたまりの発話で
ある発話断片と、対話参加者間のやりとりの最小単位で
ある通信単位で切り分けた単位で取扱い、更には、対話
相手への働きかけを行なう一連の通信単位の集まりであ
る起動発話(ターン)、あるいはその働きかけに応じる
ための一連の通信単位の集まりである応答発話(ター
ン)、あるいはこの応答発話(ターン)に対する確認を
表わすための一連の通信単位の集まりであるフィードバ
ック発話(ターン)から構成される発話交換と、その任
意個の発話交換固まりであって対話参加者の対話におけ
る主導権の及ぶ範囲を表わす談話セグメントという単位
で取り扱うようにする(情報処理学会音声言語情報処理
研究会技術報告資料、SLP‐4‐10、「談話構造モ
デルによる電話相談対話の分析」、1994年12
月)。
【0029】このような構成の対話処理装置において、
対話入力手段により、対話音声の各発話を入力する。す
ると、クルー抽出手段は、前記対話入力手段に入力され
た対話者の発した発話の断片である発話断片の中から、
対話の進行状況を表す相槌等の手掛かりとなる語である
クルーの候補を抽出する。
【0030】発話機能規則記憶手段は、予め設定された
言語クルーと、対話の進行状況へ与える効果を表現する
発話機能との対応関係である発話機能規則を記憶してい
る。
【0031】発話機能抽出手段は、前記発話機能規則記
憶手段の発話機能規則を参照して、前記クルー抽出手段
によって抽出された各言語クルー候補に対して発話機能
をそれぞれ割当てる。
【0032】談話構造生成手段は、前記クルー抽出手段
と前記発話機能抽出手段の少なくとも一つの出力に基づ
いて、前記対話入力手段へ入力された対話音声の各発話
間での対話の進行状況を表現する談話構造を生成する。
【0033】この対話音声の各発話間での対話の進行状
況を表現する談話構造を生成するようにしたことによ
り、対話音声の各文あるいは発話の完全な書き下し記述
あるいは意味記述を必要とせずに、その対話の進行状況
を表す文脈情報を得ることが可能となる。
【0034】そして、本発明では、談話構造は入力され
たひとかたまりの発話である発話断片として扱うように
し、かつ、これら発話断片を対話参加者間のやりとりの
最小単位である通信単位で切り分けた単位で取扱うよう
にしたことにより、複数の対話参加者があって断片的な
発話が入力される場合でも対応することができ、複数話
者の自由発話を解析することができるようになり、ま
た、対話相手への働きかけを行なうための一連の通信単
位の集まりである応答発話(ターン)、あるいはその働
きかけに応じるための一連の通信単位の集まりである応
答発話(ターン)、あるいは、この応答発話(ターン)
に対する確認を表わすための一連の通信単位の集まりで
あるフィードバック発話(ターン)から構成される発話
交換と、その任意個の発話交換の固まりであって対話参
加者の対話における主導権の及ぶ範囲を表わす談話セグ
メントという単位で取り扱うようにすることで、複数の
対話参加者がそれぞれ主導権を握って対話する範囲を明
らかにすることができるようになり、複数話者の自由発
話を解析することができるようになる。
【0035】また、本発明に係る対話処理装置は、音声
入力を取り込む入力手段と、該入力手段により取り込ま
れた音声入力に対して、言語解析、意味解析を含む解析
処理を行ない、該音声入力の示す意図を表す入力意図情
報を出力し、また、談話構造情報に基づき与えられた情
報を利用して前記解析処理してその情報の示す意図を表
す入力意図情報を出力する入力解析手段と、この入力解
析手段からの入力意図情報を受けとり、予め用意した情
報に対しての情報検索処理、推論処理を行なうことによ
って、入力意図情報に対する回答である応答意図情報を
得る問題解決手段と、この問題解決手段で得た応答意図
情報を具体的な応答情報に変換する出力生成手段と、入
力音声に含まれる発話断片の中から、対話の進行状況を
表す手がかりとなる語であるクルーの候補を抽出するク
ルー抽出手段と、予め設定された各種のクルーと対話の
進行状況へ与える効果を表現する発話機能との対応関係
である発話機能規則を記録した発話機能規則記憶手段
と、該発話機能規則記憶手段の発話機能規則を参照し
て、前記クルー抽出手段の抽出した各クルー候補に対し
て発話機能をそれぞれ割り当てる発話機能抽出手段と、
前記抽出クルーと前記発話機能抽出手段の出力と前記入
力意図情報の少なくとも一つと、前記応答意図情報と前
記応答情報の少なくとも一つに基づいて、これらの内容
を含め対話の進行状況を表す談話構造を逐次生成し、ま
た、この前記談話構造の情報に基づき抽出した情報を前
記入力解析手段に与えるべく制御する談話管理手段とを
具備して構成する。
【0036】本装置では、入力手段によって、利用者か
らの音声入力等の入力信号を受けとり、入力情報を出力
し、入力解析手段によって、該入力情報に対して、音声
認識処理、言語解析処理、意味解析処理等の解析処理
を、少なくとも1つ以上行ない、音声入力の意図を表す
入力意図情報を出力し、問題解決手段によって、入力意
図情報を受けとり、情報検索処理、推論処理、計算処理
等の処理を行なうことによって、入力意図情報に対する
問題解決を行ない、情報検索結果あるいは推論結果ある
いは計算結果等の処理結果などを表す情報や、前記問題
解決処理で必要となる追加情報の入力要求などを表す情
報を表す応答意図情報を出力し、出力生成手段によっ
て、これを具体的な応答情報に変換する。つまり、問題
解決手段から該応答意図情報を受けとり、言語生成処理
や音声合成処理等の応答生成処理によって利用者に対す
る応答を表す応答情報を生成する。そして、出力手段に
よって該応答情報を受けとり、自然言語文字列や音声信
号化して利用者に応答を提示する。また、談話管理手段
によって、入力手段および入力解析手段および問題解決
部および出力生成部および出力部の一部あるいは全部の
動作状況に応じて入力手段および入力解析手段および問
題解決部および出力生成部および出力部の一部あるいは
全部の動作を制御する。
【0037】本装置では、利用者からの入力音声の解析
の結果、得られる利用者の発話の意図情報に加えて、対
話システムから利用者へ提示される応答出力に関する意
図情報である応答意図情報、あるいは利用者に提示され
る応答音声に含まれるクルーの情報等を参照することに
よって、利用者と対話システムの間で交わされる対話の
談話構造を逐次生成し、これによって利用者からの入力
音声およびそれに対する応答提示に関する対話の流れと
内容の関連を解析した談話構造を生成し、この談話構造
を利用して処理を進めることにより、自然の対話の解
析、理解および生成をできるようにしている。
【0038】すなわち、そのために、入力手段から入力
された音声はクルー抽出手段によって、入力音声情報に
含まれる発話断片の中から、対話の進行状況を表す手が
かりとなる語であるクルーの候補を抽出し、そして、発
話機能抽出手段により、発話機能規則記憶手段に予め設
定されたクルーと、対話の進行状況へ与える効果を表現
する発話機能との対応関係である発話機能規則を参照し
ながら、前記抽出された各クルー候補に対してどのよう
な発話機能を持つかを調べてそれぞれその調べた結果の
発話機能を割り当て、談話管理手段によって、前記クル
ー抽出手段の出力と前記発話機能抽出手段の出力と前記
入力意図情報の少なくとも一つと、前記応答意図情報と
応答情報の少なくとも一方に基づいて、本対話システム
と利用者の間で行なわれる対話の進行状況を表す談話構
造を逐次生成する。
【0039】そして、例えば、発話の主導権の推移状況
や発話交換構造あるいは話題推移の推定処理、あるいは
埋め込み対話の発生の様子あるいは、それらの情報を利
用した省略照応表現の参照先の探索範囲の推定処理等と
いった、生成した談話構造から得られる情報を入力解析
手段あるいは問題解決手段あるいは応答生成部、あるい
は談話管理部において利用することにより、入力手段か
ら入力された入力音声の言語解析や意味解析、あるいは
問題解決処理、あるいは断片的な発話など、応答生成処
理などに役立てる。
【0040】従って、本発明を人‐計算機対話システム
に適用する場合では、談話構造を逐次構成し、またこの
談話構造を参照した処理によって各部を制御することに
よって、断片的な発話などによる自然な話し言葉(自由
発話音声言語)による対話を可能にし、自由発話による
対話内容の理解と回答提示などを可能にする人‐計算機
対話システムを提供できるようになる。
【0041】
【発明の実施の形態】本発明にかかる装置は、対話音声
の各発話を入力する対話入力手段と、この対話入力手段
に入力された発話の断片の中から、対話の進行状況を表
す手掛かりとなる語であるクルーの候補を抽出するクル
ー抽出手段と、予め設定された各種クルーと、対話の進
行状況へ与える効果を表現する発話機能との対応関係で
ある発話機能規則を記憶した発話機能規則記憶手段と、
この発話機能規則記憶手段の発話機能規則を参照して、
前記クルー抽出手段によって抽出された各クルー候補に
対して発話機能をそれぞれ割当てる発話機能抽出手段
と、前記発話機能抽出手段によって割当てられた各クル
ー候補に対する発話機能に基づいて各発話断片毎の制約
条件を対応させ、各発話断片毎の前記制約条件によっ
て、各発話断片の結合処理または上方拡張処理等を行
い、前記対話入力手段へ入力された対話音声の各発話間
での対話の進行状況を表現する階層木状の談話構造を得
る談話構造生成手段とからなる。
【0042】また、前記談話構造は、対話の進行状況に
沿って時系列に順番にまたは重り合って配置された前記
発話断片と、主導権を持つ対話者の質問、依頼、承諾等
の発話機能である実質的機能を持つ発話の断片から構成
される実質発話と、前記実質的機能を持たない発話の断
片から構成される相槌発話と、一人の対話者が発話した
1つ以上の実質発話と、その実質発話に対する相槌であ
る前記相槌発話とから構成された対話者間の情報授受の
最小単位である通信単位とからなる階層木状である。
【0043】本発明に係る対話処理装置について説明す
る。
【0044】対話入力手段から対話音声の各発話を入力
すると、クルー抽出手段は、この対話入力手段により入
力された対話者の発話の断片である発話断片の中から、
対話の進行状況を表す相槌等の手掛かりとなる語である
言語クルーの候補を抽出する。
【0045】発話機能規則記憶手段は、予め設定された
言語クルーと、対話の進行状況へ与える効果を表現する
発話機能との対応関係である発話機能規則を記憶してい
る。
【0046】発話機能抽出手段は、前記発話機能規則記
憶手段の発話機能規則を参照して、前記クルー抽出手段
によって抽出された各言語クルー候補に対して発話機能
をそれぞれ割当てる。
【0047】前記談話構造構成手段は、前記発話機能抽
出手段によって割当てられた各クルー候補に対する発話
機能に基づいて各発話断片毎の制約条件を対応させ、各
発話断片毎の前記制約条件によって、各発話断片の結合
処理または上方拡張処理等を行い、階層木状の談話構造
を得る。
【0048】ここでの談話構造は、対話の進行状況に沿
って時系列に順番にまたは重り合って配置された前記発
話断片と、主導権を持つ対話者の質問、依頼、承諾等の
発話機能である実質的機能を持つ前記発話断片から構成
される実質発話と、前記実質的機能を持たない前記発話
断片から構成される相槌発話と、一人の対話者が発話し
た1つ以上の前記実質発話と、その実質発話に対する相
槌である前記相槌発話とから構成された対話者間の情報
授受の最小単位である通信単位とからなる階層木状であ
る。
【0049】このようにして、対話音声の各発話間での
対話の進行状況を表現する階層木状の談話構造を得るこ
とにより、対話音声の各文あるいは発話の完全な書き下
し記述あるいは意味記述を必要とせずに、談話構造を手
掛かりとすることで、その対話の進行状況を表す文脈情
報を得ることが可能となる。
【0050】そして、本発明では、談話構造は入力され
たひとかたまりの発話である発話断片として扱うように
し、かつ、これら発話断片を対話参加者間のやりとりの
最小単位である通信単位で切り分けた単位で取扱うよう
にしたことにより、複数の対話参加者があって断片的な
発話が入力される場合でも対応することができ、複数話
者の自由発話を、この談話構造を手掛かりにすることに
よって解析することができるようになり、また、話題の
転換である発話交換と、その発話交換により出現する対
話のかたまりである談話セグメントという単位で取り扱
うようにすることで、複数の対話参加者がそれぞれ主導
権を握って対話する範囲を明らかにすることができるよ
うになり、複数話者の自由発話を、この談話構造を手掛
かりにすることによって解析できるようになる。
【0051】[第1の具体的な実施の態様]以下、図面
を参照して本発明の第1の実施の態様に係る対話処理装
置について説明する。
【0052】[対話処理装置の構成]図1は、本発明の
一例としての対話処理装置の構成の概要を示したブロッ
ク図である。図中1は対話音声入力部、2は対話音声記
録部、3はクルー抽出部、4はクルー辞書、5は発話機
能抽出部、6は発話機能辞書、7は談話構造抽出部、8
は構造生成規則記憶部、9は談話構造記憶部である。
【0053】(対話音声入力部1)これらのうち、対話
音声入力部1は、対話者間でやりとりされる対話音声を
入力するためのものであり、マイクロフォン及びA/D
(アナログ/デジタル)変換器等によって構成されてい
て、マイクロフォンで取り込んだ音声をディジタルデー
タに変換して対話音声情報として出力するためのもので
ある。
【0054】(対話音声記録部2)対話音声記録部2
は、対話音声を記録するためのものであり、対話音声入
力部1から入力された対話音声情報を各話者の各発話毎
に分類して時間情報等とともに記録する機能を有してい
る。
【0055】図2は、対話音声記録部2の分類した内容
の例を示しており、対話音声入力部1から入力された対
話音声情報から音声対話中の各発話についての情報が、
“発話ID情報A”、“話者記録情報B”、“発話始点
情報C”、“発話終点情報D”、“対話音声情報E”等
と分類され記録される。なお、Fは格納アドレス情報で
ある。
【0056】各欄のエントリーされる内容は下記のよう
なものである。
【0057】“発話ID情報A”の欄には、各発話の識
別記号が記録される。
【0058】“話者記号情報B”の欄には、対応する発
話を発した話者を表す記号が記録される。
【0059】“発話始点情報C”及び“発話終点情報
D”の欄には、対応する発話の開始時刻及び終了時刻が
記録されるようにしている。
【0060】“対話音声情報E”の欄には、対応する発
話の音声情報が記録され、例えばPCM(パルスコード
モジュレーション)化等によってコード化され、記録さ
れる。
【0061】なお、図2では説明及び表記上の理由によ
り、記録されている音声信号の書き下し結果を括弧で括
り表示している。
【0062】また、ここで表記上の理由により説明と無
関係の部分については省略し、記号“〜”を記載してい
る。
【0063】(クルー抽出部3)クルー抽出部3は、ク
ルーを抽出するためのものである。ここで、クルーとは
対話の進行状況を表す手掛かりとなる語のことであり、
クルー抽出部3は、後述するクルー辞書4の内容を参照
し、下記のような音声認識処理を用いることによって、
対話音声記録部2の各エントリの“対話音声情報E”か
ら、対話の進行状況を解析する手がかりとなる相槌や間
投詞等の言語的クルーや、また、ポーズや文末イントネ
ーションのライズ(上昇)やフォール(下降)あるいは
ライズアンドフォール(上昇と下降)等といった韻律的
クルーを抽出し、対応するクルーのIDであるクルーI
D情報を出力するといった機能を有している。
【0064】クルー抽出部3で利用できる音声情報認識
処理としては、ワードスポッティング処理(特願平3−
203012号)や、基本周波数(F0:イントネーシ
ョン)抽出処理(“An Integrated Pi
tch TrackingAlgorithm for
Speech Spetems”,Proceedi
ngs ICASSP83,pp.1352−1355
等)等がある。
【0065】なお、図3は、本実施例で想定しているク
ルーの分類及び具体例を示している。つまり、クルーの
分類としては、“言語的クルー”と“韻律的クルー”が
あり、言語的クルーとしては“相槌”、“間投詞”、
“接続詞”、“終助詞”、“接続助詞”、“呼びか
け”、“文末表現”、“いい直し”、“いい淀み”、…
等があり、韻律的クルーとしては“ポーズ”や、“イン
トネーション”などがある。
【0066】“相槌”には“はい”、“そうですか”、
“ええ”などがあり、“間投詞”には“あのー”、“あ
ー”、“えー”、“おー”などのようなものがある。
【0067】また、“接続詞”には“そして”、“しか
し”、“よって”などのようなものがあり、“終助詞”
には“〜ね”、“〜よ”、“〜よね”などのようなもの
がある。“接続助詞”には“〜し”、“〜が”、“〜け
ど”などのようなものがあり、“呼びかけ”には“こん
にちわ”とか、“さようなら”といったようなものがあ
る。“文末表現”には“〜です”、“〜ですか”、“〜
ます”などのようなものがあり、“いい直し”には“こ
のこれは”とか、“そのそれが”といったものがあり、
“いい淀み”には“こ これは”とか、“そ それが”
といったようなものがある。
【0068】ここで言語的クルーについては表層文字列
を示しているが、韻律的クルーは表記の都合から、本説
明上で無音区間を表現する記号“(P)”と、イントネ
ーションの上昇、下降、及び上昇+下降を表現する記号
“(↑)”、“(↓)”び“(↑↓)”を用いている。
【0069】(クルー辞書4)クルー辞書4は、各クル
ーの音響的特徴を記録した辞書情報を保持したものであ
り、クルー抽出部3でのクルー抽出のための音声認識処
理で利用される各クルーの音響的特徴を辞書情報として
提供することができるものである。
【0070】(発話機能抽出部5)発話機能抽出部5
は、発話の機能を抽出するためのものであり、真偽値情
報提示(発話の命題内容の真偽値を提示する(肯定、否
定など))や承認提示(聴者からの依頼に対する承認を
提示(承認、許可など))、あるいは注目要求(聴者の
注意を向けさせるための発話(呼びかけなど))や交換
破棄提示(発話交換構造を破棄する発話)など様々な発
話機能が対話の中に現われるが、この発話の機能を抽出
するためのものであって、発話機能辞書6の内容を参照
した処理によって、クルー抽出部3から得られる各クル
ーに対して、それぞれのクルーが対話の進行に対して与
える影響を表現する予め用意した発話機能を割り当てる
といった機能を有するものである。
【0071】(発話機能辞書6)発話機能辞書6は、発
話機能の情報を網羅した辞書であり、クルー抽出部3に
よって抽出された各クルーに対して発話機能抽出部5に
よって行われる発話機能の割り当て処理で参照される情
報が記録されている。
【0072】図4は、本実施例で想定している発話機能
の例を示している。
【0073】なお、ここでの発話機能は、対話相手への
働きかけのための機能である実質的機能と、コミュニケ
ーションを維持し制御するための制御的機能の2つに大
きく分類されている。
【0074】図4に示すように、実質的機能には真偽値
情報提示の機能(発話の命題内容の真偽値を提示する内
容(肯定、否定など)、発話の命題内容の真偽値を問う
内容(Yes/No,疑問など))、事物値情報提示の
機能(発話の命題内容の提示(陳述など)、発話の命題
内容を問う内容(wh疑問(なに?、なぜ?、どうして
?、…)など))、単独行為要求(依頼、命令、勧誘な
ど)、承認提示(聴者からの依頼に対する承認を提示
(承認、許可など))、承認要求(聴者へ承認を要求す
る発話(懇請や悲願など))、挨拶要求(挨拶の返答の
要求)、挨拶提示(挨拶の提示)、疑念提示(疑念の提
示)、受領提示(話者への働きかけ(要求など)に対す
る一般的な受領の提示)、拒否提示(話者への働きかけ
(要求など)に対する一般的な拒否の提示)、保留提示
(話者への働きかけ(要求など)に対する態度保留の提
示)、…などといったようなものがある。
【0075】また、制御的機能には、注目要求(聴者の
注意を向けさせるための発話(呼びかけなど))や、注
目提示(話者が聴者へ注意を向けたことを示す)や、確
認要求(話者が聴者に対して発話内容などの確認を要求
する)、通信成功提示(通信が成功したことを示すもの
(聞き漏らしや理解不能が発生しなかったなど))、通
信失敗提示(通信が失敗したことを示すもの(聞き漏ら
しや理解不能が発生したなど))、通信保留提示(通信
が失敗したが、割り込みを行なわず対話をそのまま進行
させる発話)、交換起動提示(発話交換構造において起
動(Iniate)の役割を持つ発話)、交換応答&提示(発話
交換構造において応答(Response))、交換FB提示(発
話交換構造においてフィードバックの役割を持つ発
話)、交換破棄提示(発話交換構造を破棄する発話)、
対話開始要求(対話(Session) の開始を要求する発
話)、対話開始提示(対話(Session) の開始を示す発
話)、主導権獲得要求(対話主導権を獲得する発話)、
主導権維持提示(主導権の維持の意思を示す発話)、主
導権委譲提示(主導権の委譲の意思を示す発話)、埋込
開始提示(埋込み対話の開始点を示す発話)、埋込終了
提示(埋込み対話の終了点を示す発話)、…などといっ
たようなものがある。
【0076】図5は発話機能辞書6の内容例を示してお
り、各クルーに関する情報が“クルーID情報A”、
“クルー表層情報B”、及び“発話機能リストC”等に
分類されて記録されている。なお、ここでDは格納アド
レスであり、この格納アドレスの内容としては各クルー
毎に、そのエントリ・ポイントを示すアドレスを用い
る。
【0077】図5に示した発話機能辞書6の内容例にお
いて、格納アドレスDにおけるQ01なるエントリ・ポ
イントは、クルーID情報Aが“R1”であり、クルー
抽出部3での音響的特徴による抽出処理によって得られ
た認識結果がクルーID“R1”とされる場合でのクル
ーに関する情報の一つに該当していることが分かる。
【0078】クルーIDが“R1”なるクルーは複数あ
るが、図5において、いずれもそのクルー表層情報Bの
内容が“はい(↓)”であることから、このクルーが語
尾のイントネーションを下げた相槌“はい”に関するも
のであることがわかり、かつ、格納アドレスDにおける
エントリ・ポイントQ01におけるクルーID“R1”
なるクルーは、図5の辞書では発話機能情報Cの内容
が、“[真偽値提示]”であることから、このクルーが
対話の中で真偽値を指示するという意図を実現するため
に用いられるものであり、従って、“真偽値提示”とい
う(実質的)機能を持つクルーであることがわかるよう
になっている。
【0079】また、格納アドレスDにおけるエントリ・
ポイントQ02〜エントリ・ポイントQ04についても
クルーID情報Aの値が同一であることから、同じクル
ーが異なった発話機能を排他的に持つ(曖昧性を持つ)
ことがあり得ることもわかる。
【0080】これに対して、例えばエントリ・ポイント
Q05ではクルー表層情報Bはエントリ・ポイントQ0
1〜エントリ・ポイントQ04と同じであるが、クルー
ID情報AがR2であり、先のもの(クルーIDがR1
のもの)と異なることから、書き下すと同じ表層表現
“はい(↓)”となるものの、クルーIDがR1のもの
と異なった発話機能を持つことがわかる。
【0081】このように書き下し表層表現が同じでも、
音響的に異なった特徴を持つクルーも多々あるが、これ
らについても、それぞれの発話機能を得ることができ
る。
【0082】より具体的には、エントリー・ポイントQ
07とエントリ・ポイントQ08のクルーではクルーI
D情報Aが一方が“R4”、他方が“R5”と異なるた
め、異なった音響的特徴を持つクルーであることがわか
る。
【0083】例えば、エントリ・ポイントQ07のクル
ーは、例えば相手の発話に対して疑いの気持ちを表すよ
うな言い方での“はい(↑)”といった発話の現れるク
ルーであり、エントリ・ポイントQ08のクルーは、例
えば対話において相手の発話を聞き漏らしてしまった場
合での問い返しの意図を表すための発話に現れるクルー
に対応することになる。さらに、エントリ・ポイントQ
11のように、一つのクルーが複数の発話機能を同時に
持つことも表現できるようにしている。以上が発話機能
辞書6の内容例である。
【0084】(談話構造抽出部7)談話構造抽出部7
は、談話構造を抽出するものである。この談話構造抽出
部7は、後述する構造生成規則記憶部8の内容を参照し
た漸次的な処理によって、音声対話記録部2に記録され
ている対話の各発話の情報と、それらに対して行われる
クルー抽出部3及び発話機能抽出部5の処理結果から、
入力音声対話の進行状況を表現する談話構造を抽出し、
後述する談話構造記憶部9へ記録するといった機能を有
する。
【0085】なお、談話構造抽出部7での処理が、本実
施例の中心的な役割を演じる重要な部分であるため、こ
れについては後程、詳しく説明する。
【0086】また、この談話構造抽出部7の処理によっ
て抽出され、談話構造記憶部9に記録され入力される対
話音声に対する“談話構造”についても、後程、詳しく
説明する。
【0087】(構造生成規則記憶部8)構造生成規則記
憶部8は、構造生成規則を記憶するものであり、談話構
造抽出部7で行われる処理において参照される談話構造
を抽出するための“構造生成規則”が予め記録される。
この“構造生成規則”も、後述の“談話構造”に密接に
関連するため、後程、詳しく説明を行う。
【0088】(談話構造記憶部9)談話構造記憶部9
は、対話音声入力部1から入力されて対話音声記録部2
に記録され、これを談話構造抽出部7により談話構造抽
出処理されて得られた談話構造の情報を記憶するための
ものである。これについても、詳細は、後述する。
【0089】[談話構造の内容]ここで、対話音声に対
して談話構造抽出部7により談話構造抽出処理されて出
力される“談話構造”について説明する。
【0090】前述した通り、音声処理や言語処理あるい
は意味処理では“文脈情報”が重要である。
【0091】特に、話者間でやりとりされる一般的な音
声対話では、省略や参照あるいは断片的な発話がなされ
ること等の特徴があるが、本装置が処理対象とするこの
ような一般的な音声対話での特徴を考えると、各発話の
内容は文脈依存性が高く、発話内容の解析にあたって
は、文脈情報の解析の重要性が非常に高いといえる。
【0092】本装置の談話構造抽出部7が抽出出力する
“談話構造”は、その“文脈情報”の一部であり、階層
木構造によって、対話の進行状況を表現する構造形態を
有している。
【0093】ここで提案し、利用する談話構造は、対話
の構造を記述するための従来技術である“発話交換構
造”(マイケル・スタプ著/南出、内田共訳/「対話分
析」/研究社出版)の持つ2つの問題点を解決するもの
である。
【0094】“発話交換構造”の持つ第1の問題点と
は、「発話交換を形成する起動発話、応答発話、あるい
はフィードバック発話は、実際の対話では、一人の対話
参加者による統語的に適格な構造を持った文ではなく、
複数の対話参加者の発話が混在する断片的な発話の集ま
りによって成されるといった現象が頻発するため、実際
の音声対話を扱うことができない」、ということであ
る。
【0095】また、“発話交換構造”の持つ第2の問題
点とは、「対話は複数の対話参加者がそれぞれ異なった
意思のもとに発話を行うため、一方の対話参加者がある
意図を達成するために発話した発話が必ずいつも対話相
手に受け入れられる訳ではなく、例えば、相手の発話に
対して割り込みが受け入れられずに棄却されることがあ
るといった現象を扱えない」、ということである。
【0096】なお、“発話交換構造”とは、例えば、 発話1: “ 〜は何ですか? ” 発話2: “ それは〜です ” 発話3: “ そうですか ” といった一連の発話の系列に対して、質問を行っている
“発話1”を「起動発話」、回答を行っている“発話
2”を「応答発話」、情報を要求した質問に対して回答
がなされたことを確認するための“発話3”を「フィー
ドバック発話」と特徴付け、これらが一つの発話の交換
構造を形成しているものとして、対話中の各発話間の構
造化を行なったものを指す。
【0097】また、ここで提案し、利用する談話構造
は、書き言葉である文章の論旨の流れを表現する修辞構
造(情報処理学会第46回全国大会予稿集/7B−10
「日本語論説文自動抄録システムのための文脈構造解
析」、情報処理学会第46回全国大会予稿集/7B−1
1/「日本語論説文自動抄録システムの試作と評価」参
照)の持つ問題点も解決するものである。
【0098】ここで修辞構造の持つ問題点というのは、
「一人の筆者によって作成された文章を処理対象とした
ものであるため、複数の対話参加者によって生成される
音声対話を処理することができない」ということであ
る。
【0099】(談話構造の概要)図6に、より具体的な
実施の態様の例で提案し、利用する本発明装置における
談話構造抽出部7での抽出談話構造の記述例を示す。な
お、図6では、表記上の理由により説明と無関係の部分
については省略し、代わりに記号“〜”を付して示して
いる。
【0100】図6において破線で囲まれた領域が談話構
造の階層木構造を表現しており、その下に時間軸ととも
に時間に沿った2人の対話参加者A,Bとその発話(U
1〜U14)が示されている。
【0101】記号SFは“発話断片”を表している。こ
の発話断片SFというのは、各対話参加者の発した発話
(の断片)を表していて、その発話の話者や時間情報や
その発話にクルーとその発話機能等の情報を必要に応じ
て保持する。
【0102】記号UTは、実質的機能を持つ発話断片か
ら構成される“実質発話”を表す。記号CSは、実質的
機能を持たない発話断片から構成される“相槌発話”を
表す。
【0103】記号CUは、一人の対話参加者が発話した
一つ以上の実質発話とその実質発話に対する相槌である
任意個の“相槌発話”によって構成され、対話参加者間
の情報授受の最小単位である“通信単位”を表してい
る。
【0104】なお、ここで、“実質的発話”を行った対
話参加者を、この通信単位で主導権を持つ対話参加者と
呼ぶこととする。
【0105】図6を解説する。例えば、図6において、
発話U1は実質発話(UT)の例であるが、これには、
対話の主導権の獲得や聞き手の注目の要求や対話の開始
の要求等といった発話機能を持つ言語クルー“あのー”
と、何らかの情報の提示を行う部分である“〜”部と、
対話の主導権の維持といった発話機能を持つ言語クルー
である“〜はね”や、韻律クルーである文末のイントネ
ーションの上昇(ライズ)“(↑)”等が含まれている
ことが示されている。
【0106】また、発話U2は、対話の主導権を対話相
手に保持させたまま発話された相槌発話CSの例であ
り、ここには相手の発話に対して注意を向けたことを意
味する“注意提示”といった発話機能を持つ言語クルー
である“はい”という言葉からなることが示されてい
る。
【0107】さらに、図6において、この発話U1及び
発話U2に対応する談話構造中のノードUT,CSが、
一つの通信単位CUの子ノードとなっていることから、
この2つの発話によって対話参加者間の情報授受が形成
されていることも示されている。
【0108】記号T1,TR及びTFはそれぞれ、発話
交換構造における“起動発話”、“応答発話”及び“フ
ィードバック発話”といった役割を演じる、それぞれ一
人の対話参加者が主導権を持つ一つ以上の通信単位によ
って構成される発話ターンである“起動発話ターン”、
“応答発話ターン”及び“フィードバック発話ターン”
を表しており、以下においては各発話ターンに属する通
信単位において主導権を持つ対話参加者を、その発話タ
ーンで主導権を持つ対話参加者と呼ぶことにする。
【0109】記号EXは、起動発話ターン、応答発話タ
ーン、あるいはフィードバック発話ターン等によって構
成される“発話交換”を表しており、以下においては各
発話交換に属する起動発話ターンにおいて主導権を持つ
対話参加者を、その発話交換で主導権を持つ対話参加者
と呼ぶこととする。
【0110】記号DSは、同一の対話参加者が主導権を
持つ一つ以上の“発話交換”によって構成される“談話
セグメント”を表す。
【0111】記号DIALは、一つ以上の談話セグメン
トによって構成される“談話”を表現しており、これが
対話全体を代表する談話構造に唯一存在するルートノー
ドとなっている。
【0112】以上が談話構造の概要であり、談話構造と
して抽出する要素の一つに、“発話断片”というレベル
と、“通信単位”というレベルとを設けることによっ
て、従来技術である“発話交換構造”では扱うことので
きなかった問題点を解消し、かつ、実対話に頻繁に発生
する話者の混在する断片的な発話を扱うことを可能にし
た。
【0113】特に、談話構造として抽出する要素の一つ
に、対話相手への働きかけを行なうための一連の通信単
位の集まりである起動発話(ターン)、あるいはその働
きかけに応じるための一連の通信単位の集まりである応
答発話(ターン)、あるいはこの応答発話に対する確認
を表わすための一連の通信単位の集まりであるフィード
バック発話(ターン)から構成される“発話交換”とい
うレベルと、任意個の発話交換の固まりであって対話参
加者の対話における主導権の及ぶ範囲を表わす“談話セ
グメント”というレベルとを設けることによって、複数
の対話参加者がそれぞれ主導権を持つ範囲を明示的に表
現することを可能にした。
【0114】これにより、一人の筆者によって生成され
る文章を対象とし、その論旨の流れを表現する“修辞構
造”は、従来、複数の対話参加者によって生成される音
声対話の解析処理に利用することができなかったという
問題点も解決できるようになる。
【0115】(埋込構造)また、本談話構造では、談話
構造として抽出する要素の一つに、“埋込構造”を導入
し、談話構造中に要素として表すようにしている。
【0116】図6における記号EBは“埋込構造”を表
しており、この埋込構造EBは対話において発生する聞
き誤り等による不明事項を解消したり、情報不良等によ
り発生する曖昧性を解消したり、対話参加者の知識の誤
り等による前提誤り解消といった、対話コミュニケーシ
ョン上の障害解消のためのもので、“えっ”などのよう
な言葉が相当していて、埋め込み対話のためのものであ
る。
【0117】談話構造として抽出する要素一つに、この
“埋込構造”というレベルを設けることによって、実際
の音声対話で発生する埋め込み対話を扱うことが可能と
なる。
【0118】図6の例では、U1〜U5の一連の発話に
よって構成される3つの通信単位CUが起動発話ターン
T1を形成し、U6〜U13の一連の発話によって構成
される3つの通信単位CUと一つの埋込構造EBによっ
て応答発話ターンTRが構成され、U14の発話によっ
て構成される通信単位CUによってフィードバック発話
ターンTFが形成されていることが示されており、実際
の音声対話で発生する埋め込み対話を扱うことができ、
要素として抽出されていることがわかる。
【0119】また、これらTI,TR,TFの3つの発
話ターンによって発話交換EXが形成され、その他の部
分(“〜”部:省略)とともに談話セグメントDSが形
成され、さらに他の部分(“〜”部:省略)とともに対
話全体を表す談話DIAIが形成されていることが表現
されている。
【0120】なお、U10〜U12の一連の発話は、埋
め込まれた発話交換EXが存在し、これが前述の応答発
話ターンTRの一部となっていることもまた示されてい
る。
【0121】(棄却構造)さらに、本談話構造では、談
話構造としての抽出要素として“棄却構造”を導入し、
談話構造中に要素として表すようにしている。
【0122】書き言葉による文章と異なり、対話は、独
立の意思に基いて行動する複数の対話参加者によって生
成されるものである。そのため、ある対話参加者が、そ
の意図を実現するために発生した発話が、必ず対話相手
に受け入れられ、その意図が達成できるという保証はな
く、対話相手による発話の“棄却”現象が発生し得る。
【0123】図7は“棄却構造”を含む音声対話の例を
示している。ここでの対話内容は 発話者A: “ どうやってゆかれますか? ”、“
ええ ”、“ ああそうで ”、“ はい ”、“ そ
うですか ”、 発話者B: “ えーと東京なんだけど ”、“ まぁ
新幹線は飽きたのでバスにします ”、といったことが
交わされている。
【0124】ここで、図7において、記号“ [ ”は
発話間の時間的な同期関係を表現している。
【0125】例えば、発話V3と発話V4は同時に開始
され、発話V4での“まぁ新”が発話され終えた時点で
発話V3が終了したことや、発話V4の途中の“新幹
線”まで発話され終えた時点から発話V5の発話が開始
され、発話V4の“飽きたので”が発話された時点で発
話V5が終了したこと等が表現されている。なお、記号
“(…)”は発話中断を表す。
【0126】また、図8は、図7に示した棄却を含む対
話の例に対する談話構造の記述例を示している。
【0127】ここでは、まず話者Aから話者Bへの発話
V1である“ どうやっていかれますか(↑) ”によ
って、質問である起動発話ターンTIが提示される。
【0128】これに対して、話者Bから話者Aへの発話
V2である“ えーと東京なんだけど(↓) ”によっ
て、回答である応答が開始される。
【0129】続いて、相槌である話者Aの発話V3“
ええ(↓) ”を伴った話者Bの発話V4“ まぁ新幹
線〜 ”が開始されるが、その途中の“新幹線”まで発
話された段階で、話者Aが発話V5を開始している。
【0130】これは、話者Aがこの段階で話者Bの回答
である応答の発話が終了したものと判断し、フィードバ
ックの意図を持つ発話V5を提示し始めたことに相当す
る。
【0131】しかし実際には、話者Bの発話は終了して
おらず、発話V4が“ 〜は飽きたので〜 ”というよ
うに継続している。
【0132】そのため、話者Aは、発話V5を中断し
(記号(…))、結果として話者Aの発話したフィード
バックの発話V5は棄却され、この分部は、キャンセル
された“棄却フィードバック発話ターン”CFとなって
いることが示されている。
【0133】その後、話者Bによる発話V4の続きの内
容“ 〜バスにします(↓) ”が提示され、これに対
して話者Aが、確認の相槌である発話V6“ はい
(↓)”を提示し、続いて、話者Aが話者Bに対して最
初に行った質問に対する、話者Bから話者Aへの応答が
正しく伝えられたことを話者Bへ伝えるためのフィード
バックの意図を持つ話者Aの発話V7“ そうですか
(↓) ”が提示されるといった発話交換EXが構成さ
れている様子が示されている。
【0134】つまり、従来不可能であった発話の棄却の
現象、例えばここでの話者Aが話者Bに対してフィード
バックの意図を実現するために行った発話V5が、話者
Bが発話V4を中断せず継続することによって棄却され
たというような、発話の棄却の現象を本発明の一実施例
に係る対話処理装置で提案し、利用する“談話構造”に
よって適切に扱うことができる。
【0135】なお、この“談話構造”の階層木構造は、
上述の各構成要素の間の依存関係(所属の関係)のみを
表現するものであるため、木構造の表記上の、例えば、
Left‐to‐Rightといった順番と、実際の対
話における発話断片間の時間的な順序とは無関係となる
ようにしているため、音声対話において頻発する発話の
重複現象を含む対話音声入力に対しても適切な構造を抽
出し、記述することができる。以上が対話音声から抽出
される“談話構造”の概要である。談話構造抽出部7は
このような“談話構造”を抽出するために、つぎのよう
な処理を行なう。
【0136】[談話構造の抽出処理]この談話構造の抽
出処理は、断片的な意味記述から漸次的に文の統語構造
を生成するための従来技術である文法枠組「セグメント
グラマー」(Koenraad DeSmedt.Se
gment Grammar:a Formalism
Incremental Sentence Gen
eration,InC.L.Paris(Ed
s.),Natural Language Gene
ration in Artificial Inte
lligenceand Computational
Linguistics,KluwerAcadem
ic Pob.,pp.329−349,199
1.)、及びその処理枠組である「IPF」(Koen
raad DeSmedt.IPF:An ncrem
ental Parallel Formulato
r,InR.Rare(Eds.),Current
Research in Natural Langu
age Generation,Kluwer Aca
demic Pub.,pp.167−192,199
0)を拡張した処理によってなされる。
【0137】図9は、セグメントグラマーとその処理の
概要を示している。
【0138】図9の(a)はセグメントグラマーの基本
構成要素であって、一つの“ルート”と一つの“フッ
ト”から構成される“Syntactic Segme
nt”である。
【0139】図9の(b1)〜(b3)は基本オペレー
ションである。
【0140】セグメントグラマーでは、処理によって得
られる木構造を「セグメント」と呼ぶ。
【0141】図9の(b1)は、あるセグメントAの
“ルート”と、他のセグメントBの“フット”の間で、
例えばカテゴリが一致する等の条件が成立した場合に、
両者を単一化し、AとBを結合し一つのセグメントを得
るオペレーションである。
【0142】図9の(b2)は、あるセグメントCの
“ルート”と、他のセグメントDの“ルート”の間で、
ある条件が成立した場合に、両者を単一化しCとDを結
合した一つのセグメントを得るオペレーションである。
【0143】図9の(b3)は、あるセグメントEの
“フット”と、他のセグメントFの“ルート”と、それ
ぞれ条件が成立する“ルート”と“フット”を持つ基本
構成要素(Syntactic Segment)Gが
存在した場合に、Eの“フット”とGの“ルート”を単
一化し、かつ、Fの“ルート”とGの“フット”を単一
化することによって、EとFとGの結合した一つのセグ
メントを得るオペレーションである。
【0144】セグメントグラマーに基づく処理において
は、以上説明したオペレーションの組合せによって、断
片的な入力から談話構造を漸次的に生成する。
【0145】本実施例に係る対話処理装置では、セグメ
ントグラマーを拡張した枠組によって談話構造抽出部7
が上述の談話構造を生成するために必要な規則を記述
し、構造生成規則記憶部8に予め格納してある。
【0146】(構造生成規則記憶部8の内容)図10
は、構造生成規則記憶部8の内容の例を示しており、構
造生成規則が、“規則ID情報A”、“ルートカテゴリ
情報B”、“ルート条件情報C”、“フットカテゴリ情
報D”、“フット条件情報E”、“出現条件情報F”等
と分類され、記録される。なお、Gは格納アドレスであ
る。
【0147】構造生成規則記憶部8の各エントリは、上
述のセグメントグラマーにおける(syntactic
segment)を拡張した構造生成規則を表してい
る。
【0148】“規則ID情報A”は、対応する構造生成
規則のIDを記録している。
【0149】“ルートカテゴリ情報B”及び“フットカ
テゴリ情報D”の欄には、“ルート”と“フット”のそ
れぞれの談話構造におけるノードに対応するカテゴリ名
が記録される。
【0150】よって例えば、図10における格納アドレ
スGのS21なるエントリ・ポイントは、規則ID情報
AとしてT3なる構造生成規則のIDと、その“ルート
カテゴリ情報B”がCU(通信単位)であり、フットノ
ードのカテゴリの情報DがUT(実質発話)であるセグ
メントであることを表現している。
【0151】“ルート条件情報C”及び“フット条件情
報E”の欄には、それぞれ“ルート”及び“フット”が
満たすべき条件が記録されている。
【0152】記号“ = ”は、値の一致を意味する。
記号“ ≠ ”は、値の不一致を意味する。記号“ t
”、“f”は、それぞれ真偽値の真、偽を表す。記号
“ Φ ”は、空(集合)を意味する。記号“ − ”
は、条件無しを意味する。記号“ X ”等は、変数を
表す。
【0153】よって例えば、図10の構造生成規則記憶
部8のエントリ・ポイントS11とS12での“フット
条件情報E”の内容が、それぞれ“実質機能≠Φ”、
“実質機能=Φ”であることから、実質発話UTを形成
する発話断片SFには、少なくとも一つの実質機能があ
る必要があり、実質機能を持たない発話断片SFは相槌
発話CSの構成要素だけになり得る、という制約を表現
していることになる。
【0154】また、エントリ・ポイントS31では、
“ルート条件情報C”の内容が“主導権=X”であり、
かつ“フット条件情報E”の内容が“主導権=X”であ
ることから、この規則によって生成されるセグメントで
は、“ルート”と“フット”のそれぞれの主導権を持つ
話者が一致していなければならない、という制約条件を
表現していることになる。
【0155】構造生成規則記憶部8の各エントリ・ポイ
ント対応の“出現条件情報F”には、該当する構造生成
規則によって生成されたセグメントの結合に関する条件
として、該当する規則の各種記号はつぎのようなことを
示している。
【0156】記号“ 1 ”は、(義務的な)1回の出
現を意味する。記号“ 1+ ”は、1回以上の出現を
意味する。記号“ 0+ ”は、0回以上の出現を意味
する。記号“ 、 ”は、その前後の条件のどちらかが
成立すれば良いという選択的な条件の記述を行うための
ものである。
【0157】記号“ ( ”と“ ) ”で囲まれたも
のは、選好はされないが選択することが可能な条件を表
している。ここで選好とは、選ばれることが好ましいと
いう意味である。
【0158】よって例えば、図10のエントリ・ポイン
トS44では、“出現条件情報F”の内容が“ 1、
(0) ”となっていることから、“ルート”である発
話交換EXにはフィードバック発話ターンTFが一つ出
現可能であり、かつ、その出現が選好されるが、出現し
ないことも可能である、という制約条件が表現されてい
ることになる。
【0159】また、図10のエントリ・ポイントS43
では、“出現条件情報F”の内容が“ (0+) ”で
あることから、発話交換EXに棄却フィードバックター
ンCFは0回以上任意回出現することが可能であるが、
その出現は選好されず、発話交換EXに棄却フィードバ
ックターンCFが出現しない談話構造の方がより好まし
い、という制約条件が表現されていることになる。
【0160】(談話構造記憶部9の内容)談話構造記憶
部9について説明する。談話構造抽出部7の抽出した談
話構造は談話構造記憶部9に記憶されるが、この談話構
造記憶部9の詳細について次に説明する。
【0161】図11は、談話構造記憶部9の内容の例を
示しており、図に示すように、格納アドレス情報、ノー
ドアドレス情報、制約条件リスト情報、親ノードID情
報からなる。そして、格納アドレスにはエントリ・ポイ
ントが記憶され、このエントリ・ポイントWnn対応
に、談話構造の構成要素である各ノードの情報が、“ノ
ードID情報A”、“制約条件リスト情報B”、“親ノ
ードID情報C”等というように分類され、記録されて
いる。
【0162】“ノードID情報A”は、談話構造中での
ノードのIDを表している。
【0163】“制約条件リスト情報B”の欄には、対応
するノードに関する制約条件が記録される。
【0164】“親ノードID情報C”には、該エントリ
に対応するノードの談話構造中での親ノードのIDが記
録される。
【0165】図11には例えば、格納アドレスとして図
11のエントリ・ポイントW21の対応領域に、ノード
IDとしてSF2(発話断片)が記録されており、発話
断片SF2に関する情報が記録されていることとなる。
また、“制約条件リスト情報B”の内容として“{注目
提示、話者=B}”が記録されている。結局、W21に
おいては、この“制約条件リスト情報B”の内容が
“{注目提示、話者=B}”であるということから、こ
の発話断片は、対話相手に対して注目していることを提
示するという意図の下に話者Bによって発せられたもの
であること等がわかる。
【0166】また、エントリ・ポイントW21対応領域
の“親ノードID情報C”の内容が“CS2”であるこ
とから、ノードSF2の親ノードがCS2であること等
が分かる。
【0167】なお、ここでも記号“〜”は表記上の理由
により省略された情報を表している。
【0168】談話構造記憶部9には、以上説明した如き
に“談話構造”に関する情報が順次記録される。
【0169】(本発明装置における談話構造抽出処理の
流れ)以上、構造を説明したが、続いて、本発明装置に
おける談話構造抽出処理の流れ、すなわち、入力される
対話音声から“談話構造”を抽出して談話構造記憶部9
に記憶するまでの処理の詳細についての説明を行う。
【0170】本発明の対話処理装置で行われる対話音声
入力からの談話構造の抽出と記憶までの処理は、つぎに
示す処理手順Aに沿った処理を実施することによって行
われる。
【0171】<処理手順A>処理手順〔A1〕. 図1
に示す本発明の対話処理装置における対話音声入力部1
から対話の音声信号が順次入力されると、これらは対話
処理装置における図示しない制御部の制御のもとに、図
2に示したような情報とともに、対話音声記録部2内の
新たなエントリ・ポイントPX対応の領域に、順次記録
される。
【0172】処理手順〔A2〕. また、対話処理装置
における図示しない制御部の制御のもとに、談話構造記
憶部9には、入力された発話断片に対応するエントリ・
ポイントWXが新たに作成され、また、発話断片SFの
新たなIDが割り振られて、この新たに作成されたエン
トリ・ポイントWX対応の“ノードID情報A”の欄に
このIDが記録されるとともに、話者情報等の関連情報
がエントリ・ポイントWX対応の“制約条件リスト情報
B”の欄に記録される。なお、エントリ・ポイントWX
対応の“親ノードID情報C”の欄には未確定を意味す
る記号“?”が記録される。
【0173】処理手順〔A3〕. 次に対話処理装置に
おける図示しない制御部の制御のもとに、対話音声記録
部2に記録された対話音声についてクルー抽出部3によ
るクルー辞書4を参照したクルー抽出処理が行なわれ、
この処理によって、対話音声記録部2のエントリ・ポイ
ントPX対応の“対話音声情報E”の欄から言語クルー
及び韻律クルーCX(複数可能)が抽出される。
【0174】処理手順〔A4〕. これらの抽出された
クルーは発話機能抽出部5に渡される。対話処理装置に
おける図示しない制御部の制御のもとに、発話機能抽出
部5はこのクルーに対して発話機能辞書6を参照した発
話機能の抽出処理を行なう。この処理により発話機能抽
出部5は、処理〔A2〕で抽出された言語クルー及び韻
律クルーCXに対して、可能な発話機能を検索し、その
検索結果は談話構造記憶部9に渡されてエントリ・ポイ
ントWX対応の“制約条件リスト情報B”の欄に追記さ
れる。
【0175】処理手順〔A5〕. 次に対話処理装置に
おける図示しない制御部の制御のもとに、談話構造抽出
部7が、談話構造記憶部9に記憶されている任意の2つ
のエントリの組(Wi、Wj)について、<結合手順B
>に沿った処理を実施する。
【0176】処理手順〔A6〕. 談話構造抽出部7
は、談話構造記憶部9に記録されている任意のエントリ
・ポイントWiについて<上方拡張手順C>に従った処
理を行う。
【0177】処理手順〔A7〕. 上記処理手順〔A
1〕へ戻る。
【0178】<結合手順B> 『2つのエントリの組(Wi、Wj)についての結合手
順』以下の処理は談話構造抽出部7での処理機能であ
る。
【0179】結合手順〔B1〕. エントリ・ポイント
Wiに対応するノードNiの“親ノードID情報C”の
内容を調べ、その結果、その内容が“?”でない場合は
<結合手順B>による処理を終了する。
【0180】結合手順〔B2〕. エントリ・ポイント
Wjに対応するノードNjがノードNiを値とする部分
木に含まれるか否かを調べ、その結果、含まれる場合は
<結合手順B>による処理を終了する。
【0181】結合手順〔B3〕. ノードNiとノード
Njのカテゴリが同一であるかを調べ、その結果、カテ
ゴリが異なる場合は<結合手順B>による処理を終了す
る。
【0182】結合手順〔B4〕. ノードNiとノード
Njの“制約条件情報リスト情報B”に記録されている
制約条件に矛盾が存在するか否かを調べ、その結果、存
在する場合は、<結合手順B>による処理を終了する。
【0183】結合手順〔B5〕. ノードNiを生成す
るときに用いられた構造生成規則記憶部8のエントリ・
ポイントSiに対応する“出現条件情報F”の欄の内容
を調べ、ノードNiとノードNjを統合した場合に条件
を満たすか否かを調べて、その結果、条件を満たさない
場合は、<結合手順B>による処理を終了する。
【0184】結合手順〔B6〕. ノードNjを生成す
るときに用いられた構造生成規則記憶部8のエントリ・
ポイントSjに対応する“出現条件情報F”の欄の内容
を調べ、ノードNiとノードNjを統合した場合に条件
を満たすか否かを調べて、その結果、条件を満たさない
場合は、<結合手順B>による処理を終了する。
【0185】結合手順〔B7〕. 談話構造記憶部9に
おけるエントリ・ポイントWjに対応する“制約条件リ
スト情報B”の欄の内容を、重複を避けてエントリ・ポ
イントWiに対応する“制約条件リスト情報B”の欄に
追加する。
【0186】結合手順〔B8〕. 談話構造記憶部9の
内に現れるノードNjのIDを、全てノードNiのID
に書き換える。
【0187】結合手順〔B9〕. 談話構造記憶部9に
おけるエントリ・ポイントWjとこのエントリ・ポイン
トWjの対応の領域の内容を削除する。
【0188】結合手順〔B10〕. 終了。
【0189】<上方拡張手順C> 『エントリ・ポイントWiについての上方拡張手順』上
方拡張手順〔C1〕. エントリ・ポイントWi対応の
“親ノードID情報C”の欄の内容を調べ、その結果、
内容が“?”でない場合は、<上方拡張手順C>に沿っ
た処理を終了する。
【0190】上方拡張手順〔C2〕. 構造生成規則記
憶部8のエントリ・ポイントSjを検索して、エントリ
・ポイントSj対応の“フットカテゴリ情報B”、及び
“フット条件情報E”の欄の内容が、それぞれエントリ
・ポイントWi対応の“ノードID情報A”、及び“制
約条件リスト情報B”の欄の内容と整合するエントリ・
ポイントSjを探す。そして、該当するエントリ・ポイ
ントSjが存在した場合にはエントリ・ポイントSj対
応の“ルートカテゴリ情報B”の欄に示すカテゴリのノ
ードNkを新たに生成し、談話構造記憶部9に記録する
とともに、エントリ・ポイントWi対応の“親ノードI
D情報C”の欄にノードNkのIDを記録する。
【0191】上方拡張手順〔C3〕. 終了。
【0192】なお、上記の処理においては、結合手順
〔B6〕での処理の条件が整うと、結合手順〔B7〕,
〔B8〕,〔B9〕の処理を行い、これらを候補として
処理するようにしたが、これに限らず、結合手順〔B
6〕での処理の条件が整い、結合手順〔B7〕,〔B
8〕,〔B9〕での処理を行わないものも候補に加えて
処理するようにしてもよい。また、同様に上方拡張手順
〔C2〕の処理を行わないものも候補に加えて処理する
ようにしてもよい。
【0193】その処理方法として、従来よりあるバック
トラック処理、並列処理、あるいは記録データを発生す
る可能性の数だけ保持する方法を使用する。そして、そ
の処理を進める方法等の従来技術を適宜併用することに
よって、全ての可能な“談話構造”を生成するか、ある
いは利用者が設定した制限内で生成可能な“談話構造”
を出力するように構成することもできる。
【0194】以上の処理により、対話音声入力からクル
ーの抽出、発話機能の抽出、談話構造の抽出を行なって
“談話構造”を出力することができるようになる。
【0195】以上が、本発明の一例としての対話処理装
置の主要部構成とその機能である。得られた“談話構
造”は、ノードID情報と制約条件リスト情報、親ノー
ド情報、そして、発話断片単位での発話内容を情報とし
て持つ木構造であり、制約条件リスト情報には主導権獲
得要求、注目要求、対話開始要求、事物情報提示、主導
権維持提示、話者、通信成功提示、真偽値要求、交換起
動提示、疑念提示、保留提示、挨拶提示等の如き発話機
能の情報が含まれており、発話順序と発話内容が時系列
的に把握できるようになっている他、対話の変遷に伴っ
て話の内容の繋がりがどのようになっていったかがわか
るように、木構造が構築されるので、木構造を辿ること
で、話の内容の意味合いや関連が掴めることから、対話
内容を入力して本発明装置によりその談話構造を取得
し、この得られた談話構造を利用して、これから得られ
る情報に基づき対話の内容を解析することで、やりとり
される自然の対話の内容を正しく言語解析、意味解析し
て理解することができる対話処理装置が実現可能にな
る。
【0196】[具体的動作例]続いてより具体的な動作
例をあげて本装置の概要を説明する。ここでは、本装置
に対して、図2に示した音声対話が順次入力されるもの
として、動作の概要を説明する。
【0197】〔ステップ1〕 対話音声入力部1から
“あのー〜はね”といった発話U1がディジタルデータ
として対話音声記録部1に入力されたとする。すると、
対話音声記録部1における図2のエントリ・ポイントP
11対応位置にこれが記録されるとともに、談話構造記
憶部9にエントリ・ポイントW11が生成されるが、こ
の時点では、当該談話構造記憶部9におけるW11対応
の“制約条件リスト情報B”及び“親ノードID情報”
の欄の内容は未確定である。
【0198】〔ステップ2〕 対話音声記録部1から上
記の発話U1がディジタルデータとしてクルー抽出部3
に取り込まれる。クルー抽出部3ではこの発話U1につ
いて、クルー辞書4を参照したクルー抽出処理が行なわ
れる。すなわち、クルー抽出部3では対話音声記録部1
におけるエントリ・ポイントP11対応の“対話音声情
報E”の欄に記録されている発話U1のPCM情報か
ら、言語クルー“あのー”(クルーID=R6)、及
び、“〜はね”(クルーID=R7)を抽出する。
【0199】〔ステップ3〕 この抽出がなされると発
話機能抽出部5による処理によって、これらのクルーR
6,R7の発話機能の情報がそれぞれ、図5に示した発
話機能辞書6の例のエントリ・ポイントQ11及びエン
トリ・ポイントQ21から選択され、この選択された発
話機能の情報は図11の談話構造記憶部9のエントリ・
ポイントW11対応の“制約条件リスト情報B”の欄に
記録される。
【0200】なお、この発話U1については表記上の省
略部分(“〜”部)から情報の提示を意味する、例えば
名詞等のキーワードが抽出されること等によって、“事
物情報提示”の機能があることが検出され、この情報も
“制約条件リスト情報B”に追記される。
【0201】〔ステップ4〕 対話音声入力部1から発
話U2〜U14が入力され、対話音声記録部1に記録さ
れる。すると、ステップ1乃至ステップ3までの処理と
同様の処理が発話U2〜U14に対しても行われ、図2
に示す対話音声記憶部2のエントリ・ポイントP12〜
P24及び図11の談話構造記憶部9のエントリ・ポイ
ントW11,W51,W81,…が生成されていく。
【0202】〔ステップ5〕 次に、以上のように生成
されていく談話構造記憶部9のエントリに対して談話構
造抽出部7により、<結合手順B>及び<上方拡張手順
C>に基づく処理が実施されることによって、入力対話
音声に対する“談話構造”が生成されていくことにな
る。
【0203】〔ステップ6〕 すなわち、まず、図11
に示した談話構造記憶部9のエントリ・ポイントW11
対応の“ノードID情報A”にあるSF1(発話断片)
に対して、図10に示した構造生成規則記憶部8のエン
トリ・ポイントS11対応の情報を用いた<上方拡張手
順C>に基づく処理によって、その親ノードとして図1
1に示した談話構造記憶部9のエントリ・ポイントW1
2対応の“ノードID情報A”にあるUT1(実質発
話)が生成される。
【0204】〔ステップ7〕 同様に、エントリ・ポイ
ントW12対応の“親ノードID情報C”の欄の内容か
らその親ノードエントリ・ポイントW41(通信単位C
U1)が生成される。
【0205】〔ステップ8〕 同様に、エントリ・ポイ
ントW21対応の“ノードID情報A”の欄の内容SF
2(発話断片)から、相槌発話CS2を登録するエント
リ・ポイントW22が生成されて当該W21対応の“ノ
ードID情報A”の欄にCS2が登録され、さらに、エ
ントリ・ポイントW42が生成されて該W42対応の
“ノードID情報A”の欄にCU2(通信単位)が登録
される。
【0206】そして、ここでは、エントリ・ポイントW
41(通信単位CU1)とエントリ・ポイントW42
(通信単位CU2)の間での<統合手順B>に基く処理
が行われ、両者が統合される。
【0207】〔ステップ9〕 以上までの処理によっ
て、図6に示した“談話構造”の記述例の発話U1と発
話U2を葉として、2つの発話断片SFと1つの実質発
話UTと1つの相槌発話CSを中間ノードとして含み、
その直ぐ上の通信単位CUを根とする談話構造の部分木
が完成する。
【0208】以上、同様の処理が行われると、図2に示
した対話音声入力に対して、図6の如き談話構造の記述
例が出力されることになる。
【0209】以上は対話音声入力に対してクルーの抽
出、この抽出したクルーについての発話機能情報の抽
出、発話機能情報からの談話構造の抽出生成の詳細を述
べたが、対話音声は冗長であったり、曖昧であったり、
相槌や間投詞等が入ったりしていて、本来、不要な言葉
も多い。談話構造を利用すると、容易にこれに対処する
ことができる。その例をつぎに説明する。
【0210】[第2の具体的な実施の態様]この例に示
す対話処理装置では、得られた談話構造に基いて対話音
声記録の短縮化を行う。つまり、無用な発話断片を除去
し、必要なものだけを残してこれを短縮化した対話の記
録とする。
【0211】図12(a)〜(d)は、談話構造に基づ
く対話音声記録の短縮化処理の例を簡単に図式化したも
のである。
【0212】図12(a)は、本発明の対話処理装置に
よって得られる談話構造を示した音声対話の書き下し結
果を表している。
【0213】図12(b)は、図12(a)の対話音声
入力に対して、談話構造を参照し、相槌発話CSに対応
する発話断片を削除することによって、対話音声を短縮
化した結果である。この処理により、もとの対話音声入
力は不要な相槌部分が整理されて簡潔になる。
【0214】図12(c)は、図12(a)の対話音声
入力に対して、談話構造を参照し、埋込構造EBに属す
る対話の部分である発話断片と、その埋込対話が行われ
るきっかけを与える発話機能を持つ言語クルーに対応す
る発話断片を削除することによって、対話音声を短縮化
した結果である。この処理により、もとの対話音声入力
はさらに簡潔になる。
【0215】図12(d)は、図12(a)の対話音声
入力に対して、談話構造を参照し、相槌発話CSに対応
する発話断片を削除し、かつ談話構造を参照し、埋込構
造EBに属する対話の部分である発話断片を削除するこ
とによって、対話音声を短縮化した結果である。この処
理により、もとの対話音声入力は実質発話のみとなり、
一層簡潔になる。
【0216】以上の各処理結果を図6の談話構造で説明
すると下記のようになる。
【0217】図13(a)〜(d)は、図6の談話構造
に基く対話音声記録の短縮化処理の例を示したものであ
る。
【0218】〔オリジナル〕図13における(a)は、
本発明の対話処理装置によって得られる談話構造を示し
た音声対話の書き下し結果を表している。ここには入力
された音声対話の全てが含まれており、冗長で、複雑で
あることが伺える。
【0219】〔相槌除去〕図13における(b)は、図
13における(a)の書き下し結果の対話音声入力に対
して、図6に示した対応する談話構造を参照し、相槌発
話CSに対応する発話断片U2,U4,U7及びU9を
削除する処理を施した結果である。これによって、対話
音声は相槌発話CSに対応する発話断片U2,U4,U
7及びU9が無くなった分、短縮化される。
【0220】〔埋込対話除去〕図13における(c)
は、図13における(a)の書き下し結果の対話音声入
力に対して、図6に示した対応する談話構造を参照し、
埋込構造EBに属する対話の部分である発話断片U1
0,U11,U12と、その埋込対話が行われるきっか
けを与える発話機能を持つ言語クルー“えっ”に対応す
る発話断片U9を削除する処理を施した結果である。こ
れによって、埋込構造EBに属する対話の部分である発
話断片U10,U11,U12と、その埋込対話が行わ
れるきっかけを与える発話機能を持つ言語クルーに対応
する発話断片U9が無くなった分、短縮化される。
【0221】〔相槌および埋込み対話除去〕図13にお
ける(d)は、図13における(a)の書き下し結果の
対話音声入力に対して、図6に示した対応する談話構造
を参照し、相槌発話CSに対応する発話断片U2,U
4,U7及びU9を削除し、かつ図6に示した対応する
談話構造を参照し、埋込構造EBに属する対話の部分で
ある発話断片U10,U11,U12を削除する処理を
施した結果である。
【0222】これによって、U2,U4,U7,U9,
U10,U11,及びU12が無くなる分、対話音声が
短縮化され、処理の単純化と談話構造の抽出生成結果の
簡潔化を図ることができるようになる。
【0223】以上、本発明は、対話音声入力からクルー
を抽出し、この抽出したクルーの持つ発話機能の取得す
ると共に、これらより談話構造の抽出生成を行なって談
話構造を得るようにしたものであり、談話構造として抽
出する要素として発話断片、通信単位、発話交換、談話
セグメント、埋込構造の各レベルを設け、抽出したクル
ーの分類を、これらのレベルについても行なって、談話
構造として生成するようにした。
【0224】このように対話音声入力をひとかたまりの
発話である発話断片と、対話参加者間のやりとりの最小
単位である通信単位というレベルに分けることによっ
て、従来の欠点である複数の対話参加者の発話が混在す
る断片的な発話入力が扱えないという問題を解消できる
ようになり、実対話に適合できるようになる。さらにま
た、話題転換である発話交換と、一つの話題に関しての
発話のまとまりである談話セグメントというレベルに分
けることによって、複数の対話参加者がそれぞれ主導権
を持つ範囲を明示的に表現できるようになり、一人の人
の文しか扱えないといった従来の欠点を、複数話者の音
声(つまり、複数人の文が混在する状態)にあってもそ
の談話構造を生成することができるようになる。また、
埋込構造のというレベルに分けることができることによ
り、実際の対話で発生する埋込み対話を扱うことができ
るようになる。
【0225】[他の例]なお、本発明は上記各実施の態
様の例に限定されるものではない。
【0226】例えば、上述の例では人同士の対話を記録
し談話構造の抽出する例を示したが、同様の処理を、人
‐計算機対話システムに組み込んで利用することも可能
である。その例を次に説明する。
【0227】図14は、談話構造を利用する本発明の人
−計算機対話システムの構成例を示しており、同時に、
本発明に係る人‐機械対話システム20が、入力部2
1、入力解析部22、問題解決部23、出力生成部2
4、出力部25、談話管理部26といった対話システム
の基本要素に加え、クルー抽出部27、クルー辞書2
8、発話機能抽出部29、発話機能辞書30、構造生成
規則記憶部31、および談話構造記憶部32といった内
部構成を持つ構成であることを示している。
【0228】これらのうち、クルー抽出部27、クルー
辞書28、発話機能抽出部29、発話機能辞書30、構
造生成規則記憶部31、談話構造記憶部32は、それぞ
れ[第1の具体的な実施の態様]のところで説明したク
ルー抽出部3、クルー辞書4、発話機能抽出部5、発話
機能辞書6、構造生成規則記憶部8、談話構造記憶部9
のうちの同名のものと機能は同じである。従って、各々
の詳細は前出のものを参照することとし、ここではあら
ためて説明はしない。
【0229】また、図14において、入力部1は、利用
者からの音声などによる入力信号を受けとり、これを入
力情報として入力解析部22へと渡すものである。
【0230】そして、入力解析部22は、入力部1から
受けた入力情報に対して音声認識、言語解析、意味解析
などを行ない、入力信号の意図である入力意図情報を出
力するものである。つまり、どのようなことを意味する
のかを示す情報を出力するものである。
【0231】但し、入力解析部22は、入力部1から受
けた入力情報に対して言語解析、意味解析処理する場
合、入力情報の文構成が完成した一文に纏まっている場
合には問題がないが、入力情報の形態が不完全な文(未
完成文の形態)であったり、断片的な言葉、相槌、間投
詞、言い直し、言い換え、言いよどみなどがあると対処
できない場合がある。
【0232】そのような場合にも対処できるようにする
ために入力解析部22は談話管理部26に入力部1から
受けた入力情報に対する問い合わせを行なう。談話管理
部26では、抽出生成した談話構造の情報をもとに、入
力部1にて受けとった入力情報がどのようなものである
かを談話構造の木構造を辿って抽出し、この抽出した情
報を入力解析部22に与える。
【0233】入力解析部22はこの情報から入力部1か
ら受けた入力情報が何を意図するかを解析してそれに対
応する入力意図情報を出力させ、この解析結果である入
力意図情報を問題解決部23に与えてこの入力意図情報
により与えられる命題に対しての回答取得の処理である
問題解決処理を行なわせ、取得した回答である応答意図
情報を出力させるといった機能を実現する。
【0234】問題解決部23は、入力意図情報を受けと
った場合に、その入力意図情報により定まる命題に対し
て該問題解決部23の能力に従い、回答取得の処理であ
る問題解決処理を行なって結果を出力するものである。
例えば、問題解決部23としては、入力解析部22から
何等かの情報の提供を要求する意図(何等かの情報提供
を求める命題)を受けとった場合には、その求められて
いる情報を予め用意してあるデータベース等より検索す
る情報検索処理を行ない、また、必要によっては例えば
スケジューリングや組み立て手順のプランニングやある
いは道案内などを、推論や計算処理を施すことなどによ
って回答(結果)を得てこれを応答意図情報として出力
したり、また、問題の解決を要求する意図(提起された
問題の解決を求める命題)を受けとった場合には、それ
に対応する推論あるいは計算処理を行なうなどして問題
解決処理を行ない、この処理結果(回答)から利用者へ
提示すべき応答の意図を表す応答意図情報を出力すると
いった機能を有するものである。
【0235】さらに、出力生成部24は、問題解決部2
3からの応答意図情報を受けとり、自然言語生成処理、
あるいは音声合成処理などを行なうことによって利用者
に提示する応答情報を生成するものである。これによ
り、入力意図情報をもとに問題解決部23が命題に対し
ての回答取得の処理である問題解決処理を行なった結
果、取得した回答である応答意図情報を元にして、その
回答内容を音声や画面で知らせることができるように、
音声や画面情報に変換処理させるといった機能を実現す
る。
【0236】出力部25は、応用情報を受けとり、音声
出力や文字の表示などをするものであり、これによって
利用者にわかるかたちで応答情報を提示することができ
るようにしている。
【0237】また、談話管理部26は対話システム全体
の動作の制御を司ると共に、談話構造を生成するもので
あって、入力解析部22から得られる入力意図情報や、
問題解決部23から得られる応答意図情報や、出力生成
部24から得られる応答情報などを参照し、発話対や、
対話のプラン構造や、対話の進行の順序を記述する状態
遷移図などを利用して、対話の進行や話題や発話交代な
どの管理を行なうための情報を生成したり、保持した
り、管理したり、また、修正したりすることによって、
対話システム全体の動作の制御を行なう機能を有する。
【0238】また、談話管理部26は、入力部21によ
り入力され、クルー抽出部27によって抽出されたクル
ーと、このクルーについて発話機能抽出部29が発話機
能辞書30を参照して抽出した発話機能の情報と、入力
解析部22が求めた入力意図情報の少なくとも一つと、
前記応答意図情報と出力生成部24の出力する応答情報
の少なくとも一方に基づいて、本対話システムと利用者
の間で行なわれる対話の進行状況を表し、かつ、その対
話の発話機能情報、発話内容等を含む談話構造を逐次生
成する機能をも有する。
【0239】すなわち、談話管理部26は、前述した管
理制御機能の他、クルー抽出部27および発話機の抽出
部29により抽出された利用者の入力音声から抽出され
た各クルーおよびそれらに割り振られた発話機能の各情
報と、出力生成部24から得られる対話システムからの
応答の意図の内容を表す応答意図情報とを受けとり、構
造生成規則記憶部31の内容を参照して、利用者の発話
と対話システムの発話を葉とする談話構造を漸次生成
し、談話構造記憶部32に記録する機能を有する。
【0240】この談話構造記憶部32に記録されている
談話構造は、入力解析部22や、問題解決部23、そし
て、出力生成部24が必要に応じて参照できるように、
問い合わせや要求により、また、自発的に談話管理部2
6がこれらに受け渡すことによってこれら入力解析部2
2や、問題解決部23、そして、出力生成部24が各々
での処理にあたって、利用することができるようにした
構成である。
【0241】以上示したように、ここで示す構成は、基
本的な構成を持つ対話システムと、本発明の第1の具体
的な実施の態様において示した対話処理装置とを組合わ
せた構造として、発話内容についての談話構造抽出と、
この抽出した談話構造から何を求めているのかを知り、
これに対して問題解決を行なって回答を音声や画面で知
らせるようにするといった機能を実現するものである。
【0242】動作を説明する。まず、対話の内容情報を
入力部21を介して取り込む。この対話の内容情報は音
声信号であっても良いし、キーボードからのキー入力信
号であっても良いし、タッチパネルの情報であっても良
いし、これらの複合体であっても良い。入力部21から
得られた入力情報は、クルー抽出部27へ渡される。
【0243】クルー抽出部27ではこの入力情報に対し
て、クルー辞書28を参照した処理によって、対話の進
行状況を表す手がかりとなる語である言語クルーの候補
を抽出する。
【0244】さらに、発話機能抽出部29は、予め設定
された言語クルーと、対話の進行状況へ与える効果を表
現する発話機能の対応関係である発話機能規則を保持し
ている発話機能辞書30を参照して、前記クルー抽出部
27によって抽出された各クルー候補に対して、発話機
能を割り当てる。
【0245】そして、談話管理部26は、利用者からの
入力音声から抽出された各クルーおよびそれらに割り振
られた発話機能の情報と、問題解決部23から得られる
対話システムからの応答の意図の内容を表す応答意図情
報とを受けとり、構造生成規則記憶部31の内容を参照
して、利用者の発話と対話システムの発話を葉とする談
話構造を漸次生成し、談話構造記憶部32に記録する。
【0246】一方、入力解析部22は、入力部1から受
けた入力情報に対して音声認識、言語解析、意味解析な
どを行ない、入力信号の意図である入力意図情報を出力
する。つまり、どのようなことを意味するのかを示す情
報を出力する。そして、これを問題解決部23に与え
る。
【0247】問題解決部23では入力意図情報を受けと
ると、その入力意図情報により定まる命題に対して、回
答取得の処理である問題解決処理を行なって結果を出力
する。例えば、問題解決部23としては、入力解析部2
2から何等かの情報の提供を要求する意図(何等かの情
報提供を求める命題)を受けとった場合には、その求め
られている情報を予め用意してあるデータベース等より
検索する情報検索処理を行ない、また、必要によっては
例えばスケジューリングや組み立て手順のプランニング
やあるいは道案内などを、推論や計算処理を施すことな
どによって回答(結果)を得てこれを応答意図情報とし
て出力したり、また、問題の解決を要求する意図(提起
された問題の解決を求める命題)を受けとった場合に
は、それに対応する推論あるいは計算処理を行なうなど
して問題解決処理を行ない、この処理結果(回答)から
利用者へ提示すべき応答の意図を表す応答意図情報を出
力する。
【0248】但し、入力解析部22は、入力部1から受
けた入力情報に対しての処理にあたって、入力情報が不
完全な文であったり、断片的な言葉、相槌、間投詞、言
い直し、言い換え、言いよどみなどがあると誤りを生じ
たり、対処できない場合があるのでその場合にも支障の
ないように、必要に応じて談話管理部26に対して前記
入力情報の問い合わせを行なう。
【0249】談話管理部26ではこの問い合わせによ
り、談話構造の情報を参照して必要な情報を読出し、入
力解析部22に与えると共に、解析実行させるべく制御
指示を与えるようにする。
【0250】これにより、入力解析部22では、この談
話構造の情報から入力部1にて受けとった入力情報が何
を意図するかを解析して入力意図情報を出力させ、この
解析結果である入力意図情報を問題解決部23に与えて
この入力意図情報により与えられる命題に対しての回答
取得の処理である問題解決処理を行なわせ、取得した回
答である応答意図情報を出力させる。
【0251】このようにして応答意図情報が得られる
と、出力生成部24は、問題解決部23からのこの応答
意図情報を元に自然言語生成処理、あるいは音声合成処
理などを行なうことによって利用者に提示する応答情報
を生成する。これにより、入力意図情報をもとに問題解
決部23が命題に対しての回答取得の処理である問題解
決処理を行なった結果、取得した回答である応答意図情
報を元にして、その回答内容を音声や画面で知らせるこ
とができるように、音声や画面情報に変換処理させると
いった機能を実現する。
【0252】出力部25は、出力生成部24からの応答
情報を受けとり、音声出力や文字の表示などをするもの
であり、これによって利用者にわかるかたちで応答情報
を提示する。
【0253】また、談話管理部26は入力解析部22か
ら得られる入力意図情報や、問題解決部23から得られ
る応答意図情報や、出力生成部24から得られる応答情
報などを参照し、発話対や、対話のプラン構造や、対話
の進行の順序を記述する状態遷移図などを利用して、対
話の進行や話題や発話交代などの管理を行なうための情
報を生成したり、保持したり、管理したり、また、修正
したりすることによって、対話システム全体の動作の制
御を行なう。
【0254】さらにまた、談話管理部26は、入力部2
1により入力され、クルー抽出部27によって抽出され
たクルーと、このクルーについて発話機能抽出部29が
発話機能辞書30を参照して抽出した発話機能の情報
と、入力解析部22が求めた入力意図情報の少なくとも
一つと、前記応答意図情報と出力生成部24の出力する
応答情報の少なくとも一方に基づいて、本対話システム
と利用者の間で行なわれる対話の進行状況を表す談話構
造を逐次生成する。すなわち、談話管理部26は、前述
した管理制御機能の他、クルー抽出部27および発話機
の抽出部29により抽出された利用者の入力音声から抽
出された各クルーおよびそれらに割り振られた発話機能
の各情報と、出力生成部24から得られる対話システム
からの応答の意図の内容を表す応答意図情報とを受けと
り、構造生成規則記憶部31の内容を参照して、利用者
の発話と対話システムの発話を葉とする談話構造を漸次
生成し、談話構造記憶部32に記録する。従って、構造
生成規則記憶部31は本対話システムと利用者の間で行
なわれる対話の進行状況と内容の解析結果とを表す談話
構造を保持することになる。
【0255】そして、この談話構造を利用して入力解析
部22に必要に応じ、必要な情報を渡すことで、入力部
1から受けた入力情報が不完全な文であったり、断片的
な言葉、相槌、間投詞、言い直し、言い換え、言いよど
みなどがあった場合でも、精度の高い言語解析、意味解
析を行なって利用者と対話システムとの間のコミュニケ
ーションを正常に実施させることができるようになるば
かりでなく、出力部から出力される対話システムから利
用者への応答出力を、例えば、利用者が確認のための相
槌を受けつつ、断片的な言葉で提示することや、利用者
からの不明点解消のための割り込みに対して適切に埋め
込み対話を起動することなどに利用でき、しかも、談話
管理部26が生成する談話構造の情報は、人の自然な対
話の特性を踏まえて意図を適確に捕らえることができる
ようにしたものであるから、極めて有用なヒューマン‐
マシンインタフェースとして機能することになる。
【0256】このように本例は、本発明の談話構造の生
成システムを入力文を解析してその意図に基づき最適な
回答を出す対話システムに組み込んで構成したものであ
り、入力情報の文構成が完成した一文に纏まっていない
と入力文の解析が旨くいかない場合があると言う対話シ
ステムの欠点を補うようにしたものである。
【0257】そして、対話システムの構成要素の一つで
ある入力解析部22における利用者からの入力音声の解
析処理や、問題解決部23で行なわれる利用者からの要
求内容の解決処理や利用者への応答内容を表す応答意図
の生成処理、そして、出力生成部24で行なわれる自然
言語生成処理や音声合成処理による利用者への応答意図
情報からの応答内容の生成処理など、それぞれの処理に
おいて、談話管理部26の制御の元に、談話構造記憶部
32に記録されている現在対話システムと利用者の間で
交わされている対話の進行状況を表す談話構造を参照し
て処理を進めることができるようにすることによって、
断片的な発話の理解や、利用者からの割り込み発話の理
解や、対話システムから利用者への割り込みによる埋め
込み発話の起動や管理などを行なうことができるように
なり、自由発話音声対話に対する文脈情報の抽出とその
利用が可能となる。
【0258】そして、その結果として、自然な発話を受
け付けて発話内容から得られるその指示や質問などを理
解してそれに対処することができる人‐機械対話システ
ムを構築することが可能となる。
【0259】なお、上述の例では、入力部21の出力を
クルー抽出部27が受取り、処理を行なうように構成し
ていたが、入力解析部22が行なう解析処理の中で、利
用者の発話意図の抽出を行ない、それを談話管理部26
が利用して談話構造を抽出および管理するよう構成する
ことも可能である。
【0260】さらに、上述の例では音声のみを用いた対
話システムについて説明を行なったが、本発明は、これ
に限定される訳ではなく、例えば、顔画像やジェスチャ
などを用いた対話システムであるマルチモーダル対話シ
ステムに適用しても上述した効果を得ることが可能であ
る。
【0261】また、入力部21、出力部25、問題解決
部23、あるいは対話管理部26などが、モジュールと
して個々に分離していない内部構成を持つ対話システム
についても、その内部で利用される同様の情報を適宜参
照するよう構成することによって、本発明で提案した談
話構造抽出技術を応用することも可能である。
【0262】例えば、上記実施例では、談話構造の生成
にセグメントグラマーを応用した処理を行っているが、
ここで他の文法枠組を利用することも可能である。
【0263】また、各々の構造規則に優先順序をつける
ことによって、談話構造抽出処理における処理コストを
軽減したり、あるいは談話構造候補間の選好を扱うこと
も可能である。
【0264】また、上記例では、構造生成規則の出現条
件Fによって談話構造中のあるノードに属する子ノード
の数の上での制約条件を扱えるようにしているが、これ
を拡張し、子ノード間の線形順序に対する制約や、共起
条件に関する制約を採り入れることも可能である。
【0265】さらに、本対話処理装置では、対話音声記
録を自動処理することによって、意味的なまとまりを持
つ構造へと構造化を行うものであるが、これは動画像等
が同期されて記録されている対話記録に対しても利用で
きる。
【0266】つまり、例えば、会議の記録として、会議
参加者の発話した音声情報に加えて、例えばそれぞれの
顔画像や、会議の中で提示される資料などを同期させて
記録させておいた場合には、本発明の提供する対話音声
の処理を利用した処理による対話の進行状況を表現する
談話構造の抽出し、その構造に沿って同期された映像記
録情報などを管理および利用することによって、マルチ
メディアデータを構造化し、意味的なまとまり毎の頭出
し処理や自動ハイパーテキスト化などが可能となる。
【0267】また、上記例では、相槌等を記録から削除
することによって対話音声の短縮化を行っていたが、相
槌発話や埋め込み対話等の部分に対してのみ、ピッチを
制御した早回し再生等の音声記録に対する従来の短縮化
処理を加えることによって、対話音声記録の内容を損う
ことなく短縮化を行うこともできる。
【0268】また上記例では、相槌等を記録から削除す
ることによって対話音声の短縮化を行っていたが、相槌
発話等の音声信号を、音声対話における発話の重複を可
能とする対話処理装置(特願平6−131640号「自
然言語対話装置及び自然言語対話方法」)における発話
可能位置検出手段と同様の処理に基いて、適切な重複発
話となるような位置まで、時間軸上で前あるいは後ろに
シフトすることにより対話音声記録を短縮化することも
可能である。
【0269】
【発明の効果】以上、詳述したように本発明は、対話音
声入力からクルーの抽出、発話機能の抽出、談話構造の
抽出を行なって“談話構造”を得ることができるように
したものであり、得られた“談話構造”は、ノードID
情報と制約条件リスト情報、親ノード情報、そして、発
話断片単位での発話内容を情報として持つ木構造であ
り、制約条件リスト情報には主導権獲得要求、注目要
求、対話開始要求、事物情報提示、主導権維持提示、話
者、通信成功提示、真偽値要求、交換起動提示、疑念提
示、保留提示、挨拶提示等の如き発話機能の情報が含ま
れており、発話順序と発話内容が時系列的に把握できる
ようになっている他、対話の変遷に伴って話の内容の繋
がりがどのようになっていったかがわかるように、木構
造が構築されるので、木構造を辿ることで、話の内容の
意味合いや関連が掴めることから、対話内容を入力して
本発明装置によりその談話構造を取得し、この得られた
談話構造を利用して、これから得られる情報に基づき対
話の内容を解析することで、やりとりされる自然の対話
の内容を正しく言語解析、意味解析して理解することが
できるようになるものである。
【0270】従って、本発明によれば、対話音声の各発
話間での対話の進行状況を表現する談話構造を抽出生成
することにより、対話音声の各文あるいは発話の完全な
書き下し記述あるいは意味記述を必要とせずに、その対
話の進行状況を表す文脈情報を得ることが可能となる。
【0271】また、対話の進行状況を表現する談話構造
を抽出生成することにより、対話音声に対する音声認識
及び自然言語解析及び意味解析処理での、文脈に依存す
る現象を処理することが可能となり、音声言語対話で頻
発する対話参加者の各人の発話が時間的な重複現象が発
生しても正しく文脈情報を得ることが可能となる。
【0272】さらに、対話の進行状況を表現する談話構
造を抽出生成することにより、音声対話の解析で要求さ
れる漸次的な処理を行うことが可能となり、話し言葉に
よる対話に特有の言い淀みや言い直しや相槌や間投詞等
を含む推敲されていない断片的な発話を適切に処理する
ことが可能となる。
【0273】さらに、本発明を適用することにより、断
片的な発話などによる自然な話し言葉(自由発話音声言
語)による対話で意思の伝達を行なうことができる人‐
計算機対話システムを提供することが可能となる。
【0274】さらに、音声対話を含むマルチメディアデ
ータの自動構造化が可能となる。
【図面の簡単な説明】
【図1】本発明を説明するための図であって、本発明の
第1の具体的な実施の態様を示す対話処理装置の構成の
ブロック図。
【図2】本発明を説明するための図であって、図1に示
す対話音声記録部2の内容の例を示す図。
【図3】本発明を説明するための図であって、クルーの
分類及び具体例を示す図。
【図4】本発明を説明するための図であって、発話機能
の例を示す図。
【図5】本発明を説明するための図であって、発話機能
辞書6の内容の例を示す図。
【図6】本発明を説明するための図であって、談話構造
の記述例を示す図。
【図7】本発明を説明するための図であって、棄却を含
む対話の例を示す図。
【図8】本発明を説明するための図であって、棄却を含
む対話の談話構造の例を示す図。
【図9】本発明を説明するための図であって、セグメン
トグラマー及びその処理の概要を示す図。
【図10】本発明を説明するための図であって、構造生
成規則記憶部8の内容の例を示す図。
【図11】本発明を説明するための図であって、談話構
造記憶部9の内容の例を示す図。
【図12】本発明を説明するための図であって、対話音
声記録の短縮化処理の談話構造の例を示す図。
【図13】本発明を説明するための図であって、図6の
対話音声記録の短縮化処理の例を示す図。
【図14】本発明を説明するための図であって、談話構
造を利用する人‐計算機対話システムの構成例を示すブ
ロック図。
【符号の説明】
1…対話音声入力部 2…対話音声記録部 3,27…クルー抽出部 4,28…クルー辞書 5,29…発話機能抽出部 6,30…発話機能辞書 7…談話構造抽出部 8,31…構造生成規則記憶部 9,24…談話構造記憶部 20…人‐機械対話システム 21…入力部 22…入力解析部 23…問題解決部 24…出力生成部 25…出力部 26…談話管理部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 対話音声の各発話を入力する対話入力手
    段と、 この対話入力手段に入力された発話断片の中から、対話
    の進行状況を表す手掛かりとなる語であるクルーの候補
    を抽出するクルー抽出手段と、 予め設定された各種クルーと、対話の進行状況に与える
    効果を表現する発話機能との対応関係である発話機能規
    則を記憶した発話機能規則記憶手段と、 この発話機能規則記憶手段の発話機能規則を参照して、
    前記クルー抽出手段によって抽出された各クルー候補に
    対して発話機能をそれぞれ割当てる発話機能割当手段
    と、 前記クルー抽出手段と前記発話機能割当手段の少なくと
    も一方の出力に基づいて、前記対話入力手段へ入力され
    た対話音声の各発話間での対話の進行状況を表現する談
    話構造を生成する談話構造生成手段と、を有したことを
    特徴とする対話処理装置。
  2. 【請求項2】 前記談話構造生成手段は、 前記発話機能割当手段によって割当てられた各クルー候
    補に対する発話機能に基づいて各発話断片毎の制約条件
    を対応させ、 各発話断片毎の前記制約条件によって、各発話断片の結
    合処理または上方拡張処理等を行い階層木状の談話構造
    を生成することを特徴とする請求項1記載の対話処理装
    置。
  3. 【請求項3】 前記談話構造は、 対話の進行状況に沿って時系列に順番にまたは重り合っ
    て配置された前記発話断片と、 主導権を持つ対話者の質問、依頼、承諾等の発話機能で
    ある実質的機能を持つ前記発話断片から構成される実質
    発話と、 前記実質的機能を持たない前記発話断片から構成される
    相槌発話と、 一人の対話者が発話した1つ以上の前記実質発話と、そ
    の実質発話に対する相槌である前記相槌発話とから構成
    された対話者間の情報授受の最小単位である通信単位と
    からなる階層木状であることを特徴とする請求項1記載
    の対話処理装置。
  4. 【請求項4】 前記談話構造は、 1つ以上の前記通信単位で構成される1人の対話者が主
    導権を持つ発話ターンである起動発話ターンと、 この起動発話ターンに対する1つ以上の前記通信単位で
    構成される応答発話ターンと、 この応答発話ターンに対する1つ以上の前記通信単位で
    構成されるフィードバック発話ターンと、 少なくとも前記起動発話ターンと前記応答発話ターンと
    より構成され、前記起動発話ターンの対話者が主導権を
    持つ発話交換とからなる階層木状であることを特徴とす
    る請求項3記載の対話処理装置。
  5. 【請求項5】 前記対話構造は、 同一の対話者が主導権を持つ1つ以上の前記発話交換に
    よって構成される談話セグメントと、 1以上の前記談話セグメントにより構成される談話とか
    らなる階層木状であることを特徴とする請求項4記載の
    対話処理装置。
  6. 【請求項6】 前記発話交換は、 少なくとも前記起動発話ターンと前記応答発話ターン
    と、さらに、対話コミニュケーション上の障害を解消す
    るための相槌や前提誤りの訂正等のための埋込み対話よ
    りなる埋込レベルとより構成されたことを特徴とする請
    求項4記載の対話処理装置。
  7. 【請求項7】 前記発話交換は、 少なくとも前記起動発話ターンと前記応答発話ターン
    と、さらに、対話相手者の発話に対する主導権移転の拒
    否現象である棄却現象により発生する棄却レベルとより
    構成されたことを特徴とする請求項4記載の対話処理装
    置。
  8. 【請求項8】 前記談話構造生成手段は、 前記相槌発話に属する発話断片または前記埋込レベルに
    属する発話断片のうち少なくとも1つを、削除、短縮ま
    たは重合わせをすることにより、前記談話構造を単純化
    して対話音声を短くすることを特徴とする請求項6記載
    の対話処理装置。
  9. 【請求項9】 対話音声の各発話を入力し、 入力された発話断片の中から、対話の進行状況を表す手
    掛かり語であるクルーの候補を抽出し、 予め設定されたクルーと、対話の進行状況へ与える効果
    を表現する発話機能との対応関係である発話機能規則を
    記憶し、 前記発話機能規則を参照して、前記抽出された各クルー
    候補に対して発話機能をそれぞれ割当て、 前記クルー候補と各クルー候補に対して割当てられた発
    話機能の少なくとも一方に基づいて、前記入力された対
    話音声の各発話間での対話の進行状況を表現する談話構
    造を構成することを特徴とする対話処理方法。
  10. 【請求項10】 音声入力を取り込む入力手段と、 該入力手段により取り込まれた音声入力に対して、言語
    解析、意味解析を含む解析処理を行ない、該音声入力の
    示す意図を表す入力意図情報を出力し、また、談話構造
    情報に基づき与えられた情報を利用して前記解析処理し
    てその情報の示す意図を表す入力意図情報を出力する入
    力解析手段と、 この入力解析手段からの入力意図情報を受けとり、予め
    用意した情報に対しての情報検索処理、推論処理を行な
    うことによって、入力意図情報に対する回答である応答
    意図情報を得る問題解決手段と、 この問題解決手段で得た応答意図情報を具体的な応答情
    報に変換する出力生成手段と、 入力音声に含まれる発話断片の中から、対話の進行状況
    を表す手がかりとなる語であるクルーの候補を抽出する
    クルー抽出手段と、 予め設定された各種のクルーと対話の進行状況へ与える
    効果を表現する発話機能との対応関係である発話機能規
    則を記録した発話機能規則記憶手段と、 該発話機能規則記憶手段の発話機能規則を参照して、前
    記クルー抽出手段の抽出した各クルー候補に対して発話
    機能をそれぞれ割り当てる発話機能割当手段と、 前記抽出クルーと前記発話機能割当手段の出力と前記入
    力意図情報の少なくとも一つと、前記応答意図情報と前
    記応答情報の少なくとも一つに基づいて、これらの内容
    を含め対話の進行状況を表す談話構造を逐次生成し、ま
    た、この前記談話構造の情報に基づき抽出した情報を前
    記入力解析手段に与えるべく制御する談話管理手段と、
    を具備したことを特徴とする対話処理装置。
  11. 【請求項11】 音声入力を取り込む入力手段と、 該入力手段により取り込まれた音声入力に対して音声認
    識処理し、これを言語解析処理もしくは意味解析処理の
    うちの、少なくともいずれか1つを実施して前記音声入
    力の有する意図を表す入力意図情報を出力し、また、談
    話構造情報に基づき与えられた情報を利用して前記解析
    処理してその情報の示す意図を表す入力意図情報を出力
    する入力解析手段と、 この入力解析手段からの入力意図情報を受けとり、予め
    用意した情報に対しての情報検索処理、推論処理を行な
    うことによって、入力意図情報に対する回答である応答
    意図情報を得る問題解決手段と、 この問題解決手段で得た応答意図情報を具体的な応答情
    報に変換する出力生成手段と、 入力音声に含まれる発話断片の中から、対話の進行状況
    を表す手がかりとなる語であるクルーの候補を抽出する
    クルー抽出手段と、 予め設定された各種のクルーと対話の進行状況へ与える
    効果を表現する発話機能との対応関係である発話機能規
    則を記録した発話機能規則記憶手段と、 該発話機能規則記憶手段の発話機能規則を参照して、前
    記クルー抽出手段の抽出した各クルー候補に対して発話
    機能をそれぞれ割り当てる発話機能割当手段と、 前記抽出クルーと前記発話機能割当手段の出力と前記入
    力意図情報の少なくとも一つと、前記応答意図情報と前
    記応答情報の少なくとも一つに基づいて、対話の進行状
    況を表す談話構造を逐次生成し、また、この前記談話構
    造の情報に基づき抽出した情報を前記入力解析手段に与
    えるべく制御する談話管理手段と、を具備したことを特
    徴とする対話処理装置。
  12. 【請求項12】 取り込まれた音声入力に対して、言語
    解析、意味解析を含む解析処理を行ない、該音声入力の
    示す意図を表す入力意図情報を求め、また、談話構造に
    基づく情報をもとに解析してその情報の示す意図を表す
    入力意図情報を求める入力解析ステップと、 この入力解析ステップにて得た入力意図情報について、
    予め用意した情報に対しての情報検索処理、推論処理を
    行なうことにより、入力意図情報に対する回答である応
    答意図情報を得る問題解決ステップと、 この応答意図情報を具体的な応答情報に変換するステッ
    プと、 入力音声に含まれる発話断片の中から、対話の進行状況
    を表す手がかりとなる語であるクルーの候補を抽出する
    クルー抽出ステップと、 予め設定された各種のクルーと対話の進行状況へ与える
    効果を表現する発話機能との対応関係である発話機能規
    則を参照して、前記クルー抽出ステップの抽出した各ク
    ルー候補に対して発話機能をそれぞれ割り当てる発話機
    能割当ステップと、 前記抽出クルーと前記発話機能割当ステップで得た出力
    と前記入力意図情報の少なくとも一つと、前記応答意図
    情報と前記応答情報の少なくとも一つに基づいて、これ
    らの内容を含め対話の進行状況を表す談話構造を逐次生
    成するステップと、 前記生成した前記談話構造の情報に基づき取得した情報
    を前記入力解析ステップに与える談話管理ステップと、
    を具備したことを特徴とする対話処理方法。
JP18145695A 1994-08-09 1995-07-18 対話処理装置及び対話処理方法 Expired - Lifetime JP3350293B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP18145695A JP3350293B2 (ja) 1994-08-09 1995-07-18 対話処理装置及び対話処理方法
US08/510,277 US5761637A (en) 1994-08-09 1995-08-02 Dialogue-sound processing apparatus and method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP18744094 1994-08-09
JP6-187440 1994-08-09
JP18145695A JP3350293B2 (ja) 1994-08-09 1995-07-18 対話処理装置及び対話処理方法

Publications (2)

Publication Number Publication Date
JPH08106298A true JPH08106298A (ja) 1996-04-23
JP3350293B2 JP3350293B2 (ja) 2002-11-25

Family

ID=26500636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18145695A Expired - Lifetime JP3350293B2 (ja) 1994-08-09 1995-07-18 対話処理装置及び対話処理方法

Country Status (2)

Country Link
US (1) US5761637A (ja)
JP (1) JP3350293B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2005234572A (ja) * 2004-02-18 2005-09-02 Fuji Xerox Co Ltd 談話機能に対する予測モデルを判定する方法およびシステム
JP2011134291A (ja) * 2009-11-30 2011-07-07 Nomura Research Institute Ltd 談話構造解析システムおよび談話構造解析プログラム
JP2013200423A (ja) * 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
WO2014192959A1 (ja) * 2013-05-31 2014-12-04 ヤマハ株式会社 音声合成を用いて発言に応答する技術
JP2015087740A (ja) * 2013-05-31 2015-05-07 ヤマハ株式会社 音声合成装置およびプログラム
JP2016536630A (ja) * 2013-10-01 2016-11-24 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人型ロボット等の機械と人間話者との間の対話方法、コンピュータプログラム製品、および同方法を実行する人型ロボット
KR20190109499A (ko) * 2017-06-09 2019-09-25 구글 엘엘씨 오디오 기반 컴퓨터 프로그램 출력의 수정

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021181A (en) * 1997-02-24 2000-02-01 Wildfire Communications, Inc. Electronic voice mail message handling system
JPH11224265A (ja) * 1998-02-06 1999-08-17 Pioneer Electron Corp 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
JP2000013423A (ja) * 1998-06-26 2000-01-14 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001125897A (ja) * 1999-10-28 2001-05-11 Sony Corp 言語学習装置およびその方法
FR2802731B1 (fr) * 1999-12-16 2002-01-25 Schneider Electric Ind Sa Dispositif autonome de commande a distance, appareil et installation electrique comportant un tel dispositif
GB9930731D0 (en) * 1999-12-22 2000-02-16 Ibm Voice processing apparatus
US6947885B2 (en) * 2000-01-18 2005-09-20 At&T Corp. Probabilistic model for natural language generation
US6834280B2 (en) * 2000-02-07 2004-12-21 Josiah Lee Auspitz Systems and methods for determining semiotic similarity between queries and database entries
KR100446627B1 (ko) * 2002-03-29 2004-09-04 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
JP2004021791A (ja) * 2002-06-19 2004-01-22 Shuichi Araki 自然言語による既存データの記述方法及びそのためのプログラム
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US7617094B2 (en) 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US7698141B2 (en) * 2003-02-28 2010-04-13 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
US7627599B2 (en) * 2005-05-20 2009-12-01 Palo Alto Research Center Incorporated Method, apparatus, and program product for visualizing tree structured information
US7822607B2 (en) * 2005-08-26 2010-10-26 Palo Alto Research Center Incorporated Computer application environment and communication system employing automatic identification of human conversational behavior
US20090204399A1 (en) * 2006-05-17 2009-08-13 Nec Corporation Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
TW200841189A (en) * 2006-12-27 2008-10-16 Ibm Technique for accurately detecting system failure
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
JP5025353B2 (ja) * 2007-07-03 2012-09-12 ニュアンス コミュニケーションズ,インコーポレイテッド 対話処理装置、対話処理方法及びコンピュータ・プログラム
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与***
JP5681449B2 (ja) * 2010-11-02 2015-03-11 ルネサスエレクトロニクス株式会社 情報処理装置及び携帯端末
CN104756100B (zh) * 2012-11-30 2017-07-28 三菱电机株式会社 意图估计装置以及意图估计方法
JP5701935B2 (ja) * 2013-06-11 2015-04-15 富士ソフト株式会社 音声認識システムおよび音声認識システムの制御方法
CN103593340B (zh) * 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及***
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
JP6479916B1 (ja) * 2017-09-07 2019-03-06 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2005234572A (ja) * 2004-02-18 2005-09-02 Fuji Xerox Co Ltd 談話機能に対する予測モデルを判定する方法およびシステム
JP2011134291A (ja) * 2009-11-30 2011-07-07 Nomura Research Institute Ltd 談話構造解析システムおよび談話構造解析プログラム
JP2013200423A (ja) * 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
WO2014192959A1 (ja) * 2013-05-31 2014-12-04 ヤマハ株式会社 音声合成を用いて発言に応答する技術
JP2015087740A (ja) * 2013-05-31 2015-05-07 ヤマハ株式会社 音声合成装置およびプログラム
US9685152B2 (en) 2013-05-31 2017-06-20 Yamaha Corporation Technology for responding to remarks using speech synthesis
US10490181B2 (en) 2013-05-31 2019-11-26 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP2016536630A (ja) * 2013-10-01 2016-11-24 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人型ロボット等の機械と人間話者との間の対話方法、コンピュータプログラム製品、および同方法を実行する人型ロボット
KR20190109499A (ko) * 2017-06-09 2019-09-25 구글 엘엘씨 오디오 기반 컴퓨터 프로그램 출력의 수정
KR20220107093A (ko) * 2017-06-09 2022-08-01 구글 엘엘씨 오디오 기반 컴퓨터 프로그램 출력의 수정

Also Published As

Publication number Publication date
US5761637A (en) 1998-06-02
JP3350293B2 (ja) 2002-11-25

Similar Documents

Publication Publication Date Title
JP3350293B2 (ja) 対話処理装置及び対話処理方法
US11380327B2 (en) Speech communication system and method with human-machine coordination
Bohus et al. Olympus: an open-source framework for conversational spoken language interface research
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
JP2019528512A (ja) 人工知能に基づくヒューマンマシンインタラクション方法及び装置
Skantze Exploring human error handling strategies: Implications for spoken dialogue systems
KR20160077190A (ko) 자연 표현 처리 방법, 처리 및 응답 방법, 디바이스 및 시스템
JPH11224179A (ja) 対話インタフェース・システム
WO2002073452A1 (en) Method for automated sentence planning
Komatani et al. User modeling in spoken dialogue systems to generate flexible guidance
Gibbon et al. Spoken language system and corpus design
Zue et al. Spoken dialogue systems
JPH07129594A (ja) 自動通訳システム
CN116450799B (zh) 一种应用于交通管理服务的智能对话方法及设备
Mohammed et al. Chatbot system architecture
Galibert et al. Ritel: an open-domain, human-computer dialog system.
JP2667999B2 (ja) 対話処理装置
Grosz et al. Discourse and dialogue
Zhang Language generation and speech synthesis in dialogues for language learning
Baekgaard et al. The Danish spoken language dialogue project-a general overview
McTear Rule-Based Dialogue Systems: Architecture, Methods, and Tools
Colton et al. A laboratory course for designing and testing spoken dialogue systems
Fraser The sundial speech understanding and dialogue project: results and implications for translation
Palivela et al. Responsible AI in Automatic Speech Recognition
Pearlman Sls-lite: Enabling spoken language systems design for non-experts

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070913

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090913

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090913

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100913

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110913

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110913

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120913

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120913

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130913

Year of fee payment: 11

EXPY Cancellation because of completion of term