JPH08211986A

JPH08211986A - あいづち応答のある対話装置

Info

Publication number: JPH08211986A
Application number: JP7020346A
Authority: JP
Inventors: Kenji Sakamoto; 憲治坂本; Keiko Watanuki; 啓子綿貫; Fumio Togawa; 文雄外川
Original assignee: GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO; Sharp Corp
Current assignee: GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO; Sharp Corp
Priority date: 1995-02-08
Filing date: 1995-02-08
Publication date: 1996-08-20
Anticipated expiration: 2016-08-20
Also published as: JP3199972B2

Abstract

(57)【要約】【目的】人の発声する音声のキーワードに反応して、
発話中にあいづちを挿入し、人とコンピュータとの間で
の自然でスムースな対話を実現する。【構成】音声入力部１より入力された音声は、音響分
析部２にて特徴量に変換される。マッチング部３では、
入力音声の特徴量と、あらかじめキーワード格納部４に
登録されているキーワードの特徴量とを比較し、キーワ
ードの検出を行う。このとき、時間情報取得部５により
キーワードの発声の終了時刻が得られ、キーワードの情
報とともに出力部６に送られる。出力部では、前記時間
情報取得部より得られた現在時刻とキーワードの終了時
刻を比較し、その差がある閾値より大きくなると、あい
づちの応答を出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、あいづち応答のある対
話装置、より詳細には、人間とコンピュータが音声ある
いは身振りを通じて対話する対話装置に関する。

【０００２】

【従来の技術】従来、人間とコンピュータが自然に対話
できるように、音声入力に対して対応する対話装置が考
えられてきた。これは、人間の発する音声を認識し、そ
れに応じてシステムの内部状態を変化させ、あらかじめ
決められた出力をし、人間との対話を実現しようとした
ものである。また、コンピュータとの対話をより円滑に
行えるように、入力音声に対して適切なタイミングでア
ニメーション等が応答する音声反応システムが提案され
ている。これは、音声の発声レベル等を検出し、それに
応じて反応するシステムである。

【０００３】

【発明が解決しようとする課題】上述のごとき対話装置
を実現するのに、発話が終了してから、あるいは、呼気
段落で、音声を理解する処理が始められることが多い。
しかし、このようにすると、処理時間がかかるため、人
は発話が終了してからしばらくしてシステムの応答を見
ることになる。このような対話は、現実の人間対人間の
対話ではなく、違和感が生じ、対話がスムーズに進行し
ない。

【０００４】

【課題を解決するための手段】本発明を上述のごとき課
題を解決するために、（１）音声を入力する音声入力部
と、入力された音声の特徴量を求める音響分析部と、予
め決められたキーワードを設定し、そのキーワードの特
徴量を格納するキーワード格納部と、現在時刻を得るた
めの時間情報取得部と、入力音声中のキーワードを検出
し、前記キーワード格納部のキーワードと比較するマッ
チング部と、あいづちの応答をする出力部とを備え、入
力音声中のキーワードに反応するあいづちを出力するこ
とを特徴としたものであり、更には、（２）前記（１）
において、あいづちの応答をした後、一定の時間、あい
づちの応答を抑制する出力制御部を備えたこと、更に
は、（３）前記（１）又は（２）において、あいづちの
応答をした後、該あいづちに用いたキーワードに応じて
次に認識すべきキーワードを生成し、設定する対話管理
部を備えたこと、更には、（４）入力音声中のキーワー
ドを認識する音声認識部と、入力画像中のキー動作を認
識する動作認識部と、現在時刻を得るための時間情報取
得部と、音声認識部からの情報と動作認識部からの情報
を統合する統合部と、あいづち応答をする出力部とを備
え、入力音声や動作に反応するあいづちを出力すること
を特徴としたものである。

【０００５】

【作用】請求項１の発明では、音声入力部より入力され
た音声は、音響分析部にて特徴量に変換される。マッチ
ング部では、入力音声の特徴量と、あらかじめキーワー
ド格納部に登録されているキーワードの特徴量とを比較
し、キーワードの検出が行われる。このとき、時間情報
取得部によりキーワード発声の終了時刻が得られ、キー
ワードの情報とともに出力部に送られる。出力部では、
前記時間情報取得部より得られた現在時刻とキーワード
の終了時刻を比較し、その差がある閾値より大きくなる
と、あいづちの応答を出力する。請求項２の発明では、
キーワードマッチング部より出力されたキーワードの終
了時刻が、前回あいづち応答をしてからある時間が経過
するまでは、応答を抑制する、つまり、出力部に出力し
ないようにし、あいづちが頻繁に起こり、対話が円滑に
進行しなくなることを防ぐ。請求項３の発明では、検出
されたキーワードに応じてシステムの内部状態を変化さ
せ、次に認識すべきキーワードを生成し、キーワード格
納部に記憶しておく。これにより、次に認識すべきキー
ワードを限定し、処理時間の縮小を図る。請求項４の発
明では、音声から得られたキーワードの終了時刻と、動
作から得られたキー動作の終了時間とのどちらか一方の
情報で、あいづちの応答を出力するようにし、より人間
の発声・動作に反応したあいづちを生成し、より円滑な
対話を実現する。

【０００６】

【実施例】図１は、本発明の請求項１の発明の実施例を
説明するための構成図で、図中、１は音声入力部、２は
音響分析部、３はマッチング部、４はキーワード格納
部、５は時間情報取得部、６は出力部で、人間が発声し
た音声はマイク等の音声入力部１により装置に取り込ま
れ、取り込まれた音声信号はＡＤ変換され、音響分析部
２において処理単位（フレーム）毎に特徴量（メルケプ
ストラム）に変換される。ここでは、１フレームは１０
ｍｓに相当する。あらかじめ認識すべきキーワードにつ
いてその特徴量を求め、キーワード格納部４に記憶して
おく。マッチング部３では、キーワード格納部４に記憶
されているキーワードの特徴量と入力音声の特徴量をフ
レーム単位毎に比較し、キーワードの検出を行う。この
ときの処理として、例えば、連続ＤＰ（Dynamic Progra
mming）マッチング法などが用いられる。

【０００７】図５は、キーワードとして「湯浅」が設定
されている場合で、入力音声として「私、シャープの湯
浅と申します」が入力された時のキーワードと入力音声
との距離をフレーム毎に表示したものである。ここで
は、Ｔ_minは距離が最小になった時点、Ｄ_minはそのとき
の距離、Ｔ_eは実際にキーワードが検出される時点であ
る。

【０００８】Ｔ_eとＴ_minとの関係は、Ｔ_e＝Ｔ_min＋Ｔ_d である。ここで、Ｔ_dは最小値を検出するために必要な
フレーム数で、ここでは３フレーム（＝３０（ｍｓｅ
ｃ））である。したがって、Ｔ_minは、Ｔ_min＝Ｔ_e−Ｔ_d より求められる。以下、キーワード終了時刻としてＴ
_minを用いる。

【０００９】出力部６では、時間情報取得部５より随時
得られる現在時刻ｔが、ｔ＝Ｔ_min＋Ｔ_M を満たすと、あいづちの応答を行う。ここで、Ｔ_Mは人
間同士の対話の中で、あいづちの挿入されるタイミング
を解析して得られた値で、ここでは０.５（ｓｅｃ）で
ある。このＴ_Mの値は、システムの内部状態に応じて値
を変えることも考えられる。また、キーワードの検出時
に、キーワードの開始時刻も検出されるので、開始時刻
からの時間であいづちの応答をすることも考えられる。
あいづちの応答として、人間の姿をしたＣＧ（Computer
Graphics）合成のモデルを音声出力「はい」と首を縦
に振るうなずきの動作をさせて行う。また、まばたきな
どをさせることも考えられる。

【００１０】図２は、本発明の請求項２の発明の実施例
を説明するための構成図で、図中、１は音声入力部、２
は音響分析部、３はマッチング部、４はキーワード格納
部、５は時間情報取得部、６は出力部、７は出力制御部
で、出力制御部７では、前記マッチング部３より得られ
たキーワード終了時刻Ｔ_minと前回あいづち応答に係わ
ったキーワード終了時刻ｔ_cが確率関数ｆで評価され、ｆ（Ｔ_min−ｔ_c）＞０.５を満たす場合、キーワード終了時刻の情報が出力部６に
送られ、図１の場合と同様の手法であいづちの応答がさ
れる。このとき、ｔ_cの値がＴ_minの値で更新される。満
たさない場合は、キーワード終了時刻の情報は、出力部
６に送られない。確率関数ｆは、０から１までの乱数を
一様に発生する関数で、その平均値が図６に示すような
値となるものである。この関数は、人間対人間の対話を
解析して得られたものを簡略化したもので、人間対人間
の対話の場合、約１〜２秒間隔であいづちが挿入される
ことが最も多かったという解析結果から得られたもので
ある。この関数により、あいづちの応答があってから後
１秒以内は、あいづちが抑制される。

【００１１】図３は、本発明の請求項３の発明の実施例
を説明するための構成図で、１は音声入力部、２は音響
分析部、３はマッチング部、４はキーワード格納部、５
は時間情報取得部、６は出力部、７は出力制御部、８は
対話管理部で、対話管理部８では、マッチング部３で検
出されるキーワードに応じてシステムの内部状態を遷移
させる。図７は、このときの状態遷移図の例を示す図
で、各状態の下に書かれた表は、その状態での認識すべ
きキーワードを表している。このキーワードの特徴量は
キーワード格納部４に記憶されている。矢印は状態遷移
の方向を示し、矢印と共に併記したキーワードが検出さ
れた場合、その矢印に沿って状態を変化させることを示
している。例えば、始めシステムの内部状態が「状態
１」にあるときに、「こんにちわ」という音声が入力さ
れると、図７の遷移図より、システムの内部状態は「状
態２」に遷移する。この状態での認識キーワードは、
「はい」「いいえ」等に変更される。

【００１２】図４は、本発明の請求項４の発明の実施例
を説明するための構成図で、１は音声入力部、２は音響
分析部、３は音声マッチング部、４はキーワード格納部
で、これらによって音声認識部Ｉを構成している。１１
は画像入力部、１２は画像分析部、１３は画像マッチン
グ部、１４はキー動作格納部で、これらによって動作認
識部IIを構成している。２５は時間情報取得部、２６は
統合部、２７は出力部で、音声認識部Ｉに関しては、前
述の手法により、入力音声中のキーワードの終了時刻が
検出されるので、以下に画像認識について説明する。

【００１３】画像入力部１１は、カメラ等から構成さ
れ、該画像入力部１１より人間の動作の画像が装置に取
り込まれ、画像分析部１２において、フレーム毎の画像
の特徴量が求められる。あらかじめ決められた動作（以
下、これをキー動作と呼ぶ）の特徴量がキー動作格納部
１４に記憶されている。ここでは、キー動作として、首
を縦に振るいわゆる「うなずき」を例に考える。入力画
像からキー動作の終了時刻を、音声認識の場合と同様、
画像マッチング部１３において、連続ＤＰなどを用いて
検出する。

【００１４】図８は、検出されたキーワードおよびキー
動作の例を示すが、ここでは、入力音声中から、キーワ
ード１、キーワード２、キーワード３が、入力画像中か
ら、うなずき１、うなずき２、うなずき３が検出された
例を示している。統合部２６には、音声マッチング部３
からキーワードの終了時刻の情報が、画像マッチング部
１３からキー動作の終了時刻の情報が順次入力される。
この統合部２６では、キーワードの終了時刻およびキー
動作の終了時刻の情報を前述の確率関数ｆに適用して、
出力部２７に出力する情報の制御を行う。

【００１５】

【発明の効果】

請求項１の発明に対応する効果：キーワードに反応して
あいづちが挿入されるので、コンピュータと自然でスム
ースな対話が実現できる。請求項２の発明に対応する効果：あいづちが頻繁に起こ
り、違和感が生じるのを防止することができる。請求項３の発明に対応する効果：認識対象のキーワード
を限定することで処理量の削減が実現できる。請求項４の発明に対応する効果：人間の動作や発声内容
に反応してあいづちが挿入されるので、より円滑な対話
が実現できる。

【図面の簡単な説明】

【図１】本発明の請求項１の発明の実施例を説明するた
めの構成図である。

【図２】本発明の請求項２の発明の実施例を説明するた
めの構成図である。

【図３】本発明の請求項３の発明の実施例を説明するた
めの構成図である。

【図４】本発明の請求項４の発明の実施例を説明するた
めの構成図である。

【図５】入力音声とあるキーワードとのマッチング距離
を表わす図である。

【図６】出力を制御する確率関数の例を示す図である。

【図７】状態遷移および設定キーワードの例を示す図で
ある。

【図８】検出されたキーワードおよびキー動作の例を説
明するための図である。

【符号の説明】

１…音声入力部、２…音響分析部、３…音声マッチング
部、４…キーワード格納部、５…時間情報取得部、６…
出力部、７…出力制御部、８…対話管理部、１１…画像
入力部、１２…画像分析部、１３…画像マッチング部、
１４…キー動作格納部、２５…時間情報取得部、２６…
統合部、２７…出力部、Ｉ…音声認識部、II…画像認識
部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者綿貫啓子大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内 (72)発明者外川文雄大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力部と、入力され
た音声の特徴量を求める音響分析部と、予め決められた
キーワードを設定し、そのキーワードの特徴量を格納す
るキーワード格納部と、現在時刻を得るための時間情報
取得部と、入力音声中のキーワードを検出し、前記キー
ワード格納部のキーワードと比較するマッチング部と、
あいづちの応答をする出力部とを備え、入力音声中のキ
ーワードに反応するあいづちを出力することを特徴とす
るあいづち応答のある対話装置。
【請求項２】請求項１において、あいづちの応答をし
た後、一定の時間、あいづちの応答を抑制する出力制御
部を備えたことを特徴とする対話装置。
【請求項３】請求項１又は２において、あいづちの応
答をした後、該あいづちに用いたキーワードに応じて次
に認識すべきキーワードを生成し、設定する対話管理部
を備えたことを特徴とする対話装置。
【請求項４】入力音声中のキーワードを認識する音声
認識部と、入力画像中のキー動作を認識する動作認識部
と、現在時刻を得るための時間情報取得部と、音声認識
部からの情報と動作認識部からの情報を統合する統合部
と、あいづち応答をする出力部とを備え、入力音声や動
作に反応するあいづちを出力することを特徴とするあい
づち応答のある対話装置。