JPH08211986A - あいづち応答のある対話装置 - Google Patents

あいづち応答のある対話装置

Info

Publication number
JPH08211986A
JPH08211986A JP7020346A JP2034695A JPH08211986A JP H08211986 A JPH08211986 A JP H08211986A JP 7020346 A JP7020346 A JP 7020346A JP 2034695 A JP2034695 A JP 2034695A JP H08211986 A JPH08211986 A JP H08211986A
Authority
JP
Japan
Prior art keywords
keyword
unit
voice
response
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7020346A
Other languages
English (en)
Other versions
JP3199972B2 (ja
Inventor
Kenji Sakamoto
憲治 坂本
Keiko Watanuki
啓子 綿貫
Fumio Togawa
文雄 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Sharp Corp
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO, Sharp Corp filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Priority to JP02034695A priority Critical patent/JP3199972B2/ja
Publication of JPH08211986A publication Critical patent/JPH08211986A/ja
Application granted granted Critical
Publication of JP3199972B2 publication Critical patent/JP3199972B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Input From Keyboards Or The Like (AREA)

Abstract

(57)【要約】 【目的】 人の発声する音声のキーワードに反応して、
発話中にあいづちを挿入し、人とコンピュータとの間で
の自然でスムースな対話を実現する。 【構成】 音声入力部1より入力された音声は、音響分
析部2にて特徴量に変換される。マッチング部3では、
入力音声の特徴量と、あらかじめキーワード格納部4に
登録されているキーワードの特徴量とを比較し、キーワ
ードの検出を行う。このとき、時間情報取得部5により
キーワードの発声の終了時刻が得られ、キーワードの情
報とともに出力部6に送られる。出力部では、前記時間
情報取得部より得られた現在時刻とキーワードの終了時
刻を比較し、その差がある閾値より大きくなると、あい
づちの応答を出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、あいづち応答のある対
話装置、より詳細には、人間とコンピュータが音声ある
いは身振りを通じて対話する対話装置に関する。
【0002】
【従来の技術】従来、人間とコンピュータが自然に対話
できるように、音声入力に対して対応する対話装置が考
えられてきた。これは、人間の発する音声を認識し、そ
れに応じてシステムの内部状態を変化させ、あらかじめ
決められた出力をし、人間との対話を実現しようとした
ものである。また、コンピュータとの対話をより円滑に
行えるように、入力音声に対して適切なタイミングでア
ニメーション等が応答する音声反応システムが提案され
ている。これは、音声の発声レベル等を検出し、それに
応じて反応するシステムである。
【0003】
【発明が解決しようとする課題】上述のごとき対話装置
を実現するのに、発話が終了してから、あるいは、呼気
段落で、音声を理解する処理が始められることが多い。
しかし、このようにすると、処理時間がかかるため、人
は発話が終了してからしばらくしてシステムの応答を見
ることになる。このような対話は、現実の人間対人間の
対話ではなく、違和感が生じ、対話がスムーズに進行し
ない。
【0004】
【課題を解決するための手段】本発明を上述のごとき課
題を解決するために、(1)音声を入力する音声入力部
と、入力された音声の特徴量を求める音響分析部と、予
め決められたキーワードを設定し、そのキーワードの特
徴量を格納するキーワード格納部と、現在時刻を得るた
めの時間情報取得部と、入力音声中のキーワードを検出
し、前記キーワード格納部のキーワードと比較するマッ
チング部と、あいづちの応答をする出力部とを備え、入
力音声中のキーワードに反応するあいづちを出力するこ
とを特徴としたものであり、更には、(2)前記(1)
において、あいづちの応答をした後、一定の時間、あい
づちの応答を抑制する出力制御部を備えたこと、更に
は、(3)前記(1)又は(2)において、あいづちの
応答をした後、該あいづちに用いたキーワードに応じて
次に認識すべきキーワードを生成し、設定する対話管理
部を備えたこと、更には、(4)入力音声中のキーワー
ドを認識する音声認識部と、入力画像中のキー動作を認
識する動作認識部と、現在時刻を得るための時間情報取
得部と、音声認識部からの情報と動作認識部からの情報
を統合する統合部と、あいづち応答をする出力部とを備
え、入力音声や動作に反応するあいづちを出力すること
を特徴としたものである。
【0005】
【作用】請求項1の発明では、音声入力部より入力され
た音声は、音響分析部にて特徴量に変換される。マッチ
ング部では、入力音声の特徴量と、あらかじめキーワー
ド格納部に登録されているキーワードの特徴量とを比較
し、キーワードの検出が行われる。このとき、時間情報
取得部によりキーワード発声の終了時刻が得られ、キー
ワードの情報とともに出力部に送られる。出力部では、
前記時間情報取得部より得られた現在時刻とキーワード
の終了時刻を比較し、その差がある閾値より大きくなる
と、あいづちの応答を出力する。請求項2の発明では、
キーワードマッチング部より出力されたキーワードの終
了時刻が、前回あいづち応答をしてからある時間が経過
するまでは、応答を抑制する、つまり、出力部に出力し
ないようにし、あいづちが頻繁に起こり、対話が円滑に
進行しなくなることを防ぐ。請求項3の発明では、検出
されたキーワードに応じてシステムの内部状態を変化さ
せ、次に認識すべきキーワードを生成し、キーワード格
納部に記憶しておく。これにより、次に認識すべきキー
ワードを限定し、処理時間の縮小を図る。請求項4の発
明では、音声から得られたキーワードの終了時刻と、動
作から得られたキー動作の終了時間とのどちらか一方の
情報で、あいづちの応答を出力するようにし、より人間
の発声・動作に反応したあいづちを生成し、より円滑な
対話を実現する。
【0006】
【実施例】図1は、本発明の請求項1の発明の実施例を
説明するための構成図で、図中、1は音声入力部、2は
音響分析部、3はマッチング部、4はキーワード格納
部、5は時間情報取得部、6は出力部で、人間が発声し
た音声はマイク等の音声入力部1により装置に取り込ま
れ、取り込まれた音声信号はAD変換され、音響分析部
2において処理単位(フレーム)毎に特徴量(メルケプ
ストラム)に変換される。ここでは、1フレームは10
msに相当する。あらかじめ認識すべきキーワードにつ
いてその特徴量を求め、キーワード格納部4に記憶して
おく。マッチング部3では、キーワード格納部4に記憶
されているキーワードの特徴量と入力音声の特徴量をフ
レーム単位毎に比較し、キーワードの検出を行う。この
ときの処理として、例えば、連続DP(Dynamic Progra
mming)マッチング法などが用いられる。
【0007】図5は、キーワードとして「湯浅」が設定
されている場合で、入力音声として「私、シャープの湯
浅と申します」が入力された時のキーワードと入力音声
との距離をフレーム毎に表示したものである。ここで
は、Tminは距離が最小になった時点、Dminはそのとき
の距離、Teは実際にキーワードが検出される時点であ
る。
【0008】TeとTminとの関係は、 Te=Tmin+Td である。ここで、Tdは最小値を検出するために必要な
フレーム数で、ここでは3フレーム(=30(mse
c))である。したがって、Tminは、 Tmin=Te−Td より求められる。以下、キーワード終了時刻としてT
minを用いる。
【0009】出力部6では、時間情報取得部5より随時
得られる現在時刻tが、 t=Tmin+TM を満たすと、あいづちの応答を行う。ここで、TMは人
間同士の対話の中で、あいづちの挿入されるタイミング
を解析して得られた値で、ここでは0.5(sec)で
ある。このTMの値は、システムの内部状態に応じて値
を変えることも考えられる。また、キーワードの検出時
に、キーワードの開始時刻も検出されるので、開始時刻
からの時間であいづちの応答をすることも考えられる。
あいづちの応答として、人間の姿をしたCG(Computer
Graphics)合成のモデルを音声出力「はい」と首を縦
に振るうなずきの動作をさせて行う。また、まばたきな
どをさせることも考えられる。
【0010】図2は、本発明の請求項2の発明の実施例
を説明するための構成図で、図中、1は音声入力部、2
は音響分析部、3はマッチング部、4はキーワード格納
部、5は時間情報取得部、6は出力部、7は出力制御部
で、出力制御部7では、前記マッチング部3より得られ
たキーワード終了時刻Tminと前回あいづち応答に係わ
ったキーワード終了時刻tcが確率関数fで評価され、 f(Tmin−tc)>0.5 を満たす場合、キーワード終了時刻の情報が出力部6に
送られ、図1の場合と同様の手法であいづちの応答がさ
れる。このとき、tcの値がTminの値で更新される。満
たさない場合は、キーワード終了時刻の情報は、出力部
6に送られない。確率関数fは、0から1までの乱数を
一様に発生する関数で、その平均値が図6に示すような
値となるものである。この関数は、人間対人間の対話を
解析して得られたものを簡略化したもので、人間対人間
の対話の場合、約1〜2秒間隔であいづちが挿入される
ことが最も多かったという解析結果から得られたもので
ある。この関数により、あいづちの応答があってから後
1秒以内は、あいづちが抑制される。
【0011】図3は、本発明の請求項3の発明の実施例
を説明するための構成図で、1は音声入力部、2は音響
分析部、3はマッチング部、4はキーワード格納部、5
は時間情報取得部、6は出力部、7は出力制御部、8は
対話管理部で、対話管理部8では、マッチング部3で検
出されるキーワードに応じてシステムの内部状態を遷移
させる。図7は、このときの状態遷移図の例を示す図
で、各状態の下に書かれた表は、その状態での認識すべ
きキーワードを表している。このキーワードの特徴量は
キーワード格納部4に記憶されている。矢印は状態遷移
の方向を示し、矢印と共に併記したキーワードが検出さ
れた場合、その矢印に沿って状態を変化させることを示
している。例えば、始めシステムの内部状態が「状態
1」にあるときに、「こんにちわ」という音声が入力さ
れると、図7の遷移図より、システムの内部状態は「状
態2」に遷移する。この状態での認識キーワードは、
「はい」「いいえ」等に変更される。
【0012】図4は、本発明の請求項4の発明の実施例
を説明するための構成図で、1は音声入力部、2は音響
分析部、3は音声マッチング部、4はキーワード格納部
で、これらによって音声認識部Iを構成している。11
は画像入力部、12は画像分析部、13は画像マッチン
グ部、14はキー動作格納部で、これらによって動作認
識部IIを構成している。25は時間情報取得部、26は
統合部、27は出力部で、音声認識部Iに関しては、前
述の手法により、入力音声中のキーワードの終了時刻が
検出されるので、以下に画像認識について説明する。
【0013】画像入力部11は、カメラ等から構成さ
れ、該画像入力部11より人間の動作の画像が装置に取
り込まれ、画像分析部12において、フレーム毎の画像
の特徴量が求められる。あらかじめ決められた動作(以
下、これをキー動作と呼ぶ)の特徴量がキー動作格納部
14に記憶されている。ここでは、キー動作として、首
を縦に振るいわゆる「うなずき」を例に考える。入力画
像からキー動作の終了時刻を、音声認識の場合と同様、
画像マッチング部13において、連続DPなどを用いて
検出する。
【0014】図8は、検出されたキーワードおよびキー
動作の例を示すが、ここでは、入力音声中から、キーワ
ード1、キーワード2、キーワード3が、入力画像中か
ら、うなずき1、うなずき2、うなずき3が検出された
例を示している。統合部26には、音声マッチング部3
からキーワードの終了時刻の情報が、画像マッチング部
13からキー動作の終了時刻の情報が順次入力される。
この統合部26では、キーワードの終了時刻およびキー
動作の終了時刻の情報を前述の確率関数fに適用して、
出力部27に出力する情報の制御を行う。
【0015】
【発明の効果】
請求項1の発明に対応する効果:キーワードに反応して
あいづちが挿入されるので、コンピュータと自然でスム
ースな対話が実現できる。 請求項2の発明に対応する効果:あいづちが頻繁に起こ
り、違和感が生じるのを防止することができる。 請求項3の発明に対応する効果:認識対象のキーワード
を限定することで処理量の削減が実現できる。 請求項4の発明に対応する効果:人間の動作や発声内容
に反応してあいづちが挿入されるので、より円滑な対話
が実現できる。
【図面の簡単な説明】
【図1】本発明の請求項1の発明の実施例を説明するた
めの構成図である。
【図2】本発明の請求項2の発明の実施例を説明するた
めの構成図である。
【図3】本発明の請求項3の発明の実施例を説明するた
めの構成図である。
【図4】本発明の請求項4の発明の実施例を説明するた
めの構成図である。
【図5】入力音声とあるキーワードとのマッチング距離
を表わす図である。
【図6】出力を制御する確率関数の例を示す図である。
【図7】状態遷移および設定キーワードの例を示す図で
ある。
【図8】検出されたキーワードおよびキー動作の例を説
明するための図である。
【符号の説明】
1…音声入力部、2…音響分析部、3…音声マッチング
部、4…キーワード格納部、5…時間情報取得部、6…
出力部、7…出力制御部、8…対話管理部、11…画像
入力部、12…画像分析部、13…画像マッチング部、
14…キー動作格納部、25…時間情報取得部、26…
統合部、27…出力部、I…音声認識部、II…画像認識
部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 綿貫 啓子 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内 (72)発明者 外川 文雄 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力部と、入力され
    た音声の特徴量を求める音響分析部と、予め決められた
    キーワードを設定し、そのキーワードの特徴量を格納す
    るキーワード格納部と、現在時刻を得るための時間情報
    取得部と、入力音声中のキーワードを検出し、前記キー
    ワード格納部のキーワードと比較するマッチング部と、
    あいづちの応答をする出力部とを備え、入力音声中のキ
    ーワードに反応するあいづちを出力することを特徴とす
    るあいづち応答のある対話装置。
  2. 【請求項2】 請求項1において、あいづちの応答をし
    た後、一定の時間、あいづちの応答を抑制する出力制御
    部を備えたことを特徴とする対話装置。
  3. 【請求項3】 請求項1又は2において、あいづちの応
    答をした後、該あいづちに用いたキーワードに応じて次
    に認識すべきキーワードを生成し、設定する対話管理部
    を備えたことを特徴とする対話装置。
  4. 【請求項4】 入力音声中のキーワードを認識する音声
    認識部と、入力画像中のキー動作を認識する動作認識部
    と、現在時刻を得るための時間情報取得部と、音声認識
    部からの情報と動作認識部からの情報を統合する統合部
    と、あいづち応答をする出力部とを備え、入力音声や動
    作に反応するあいづちを出力することを特徴とするあい
    づち応答のある対話装置。
JP02034695A 1995-02-08 1995-02-08 あいづち応答のある対話装置 Expired - Lifetime JP3199972B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02034695A JP3199972B2 (ja) 1995-02-08 1995-02-08 あいづち応答のある対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02034695A JP3199972B2 (ja) 1995-02-08 1995-02-08 あいづち応答のある対話装置

Publications (2)

Publication Number Publication Date
JPH08211986A true JPH08211986A (ja) 1996-08-20
JP3199972B2 JP3199972B2 (ja) 2001-08-20

Family

ID=12024576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02034695A Expired - Lifetime JP3199972B2 (ja) 1995-02-08 1995-02-08 あいづち応答のある対話装置

Country Status (1)

Country Link
JP (1) JP3199972B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2015152868A (ja) * 2014-02-18 2015-08-24 シャープ株式会社 情報処理装置
JP2018160248A (ja) * 2018-05-01 2018-10-11 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
JPWO2018078885A1 (ja) * 2016-10-31 2019-06-24 富士通株式会社 対話装置、対話方法及び対話用コンピュータプログラム
CN109994106A (zh) * 2017-12-29 2019-07-09 阿里巴巴集团控股有限公司 一种语音处理方法及设备
JP2020024522A (ja) * 2018-08-06 2020-02-13 株式会社エルブズ 情報提供装置、情報提供方法およびプログラム
JP2020190587A (ja) * 2019-05-20 2020-11-26 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6240577A (ja) * 1985-08-16 1987-02-21 Toshiba Corp 音声対話装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6240577A (ja) * 1985-08-16 1987-02-21 Toshiba Corp 音声対話装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2015152868A (ja) * 2014-02-18 2015-08-24 シャープ株式会社 情報処理装置
WO2015125549A1 (ja) * 2014-02-18 2015-08-27 シャープ株式会社 情報処理装置
JPWO2018078885A1 (ja) * 2016-10-31 2019-06-24 富士通株式会社 対話装置、対話方法及び対話用コンピュータプログラム
CN109994106A (zh) * 2017-12-29 2019-07-09 阿里巴巴集团控股有限公司 一种语音处理方法及设备
CN109994106B (zh) * 2017-12-29 2023-06-23 阿里巴巴集团控股有限公司 一种语音处理方法及设备
JP2018160248A (ja) * 2018-05-01 2018-10-11 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
JP2020024522A (ja) * 2018-08-06 2020-02-13 株式会社エルブズ 情報提供装置、情報提供方法およびプログラム
JP2020190587A (ja) * 2019-05-20 2020-11-26 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム

Also Published As

Publication number Publication date
JP3199972B2 (ja) 2001-08-20

Similar Documents

Publication Publication Date Title
US20200279553A1 (en) Linguistic style matching agent
US7490042B2 (en) Methods and apparatus for adapting output speech in accordance with context of communication
EP3373301A1 (en) Apparatus, robot, method and recording medium having program recorded thereon
US20040068410A1 (en) Method and apparatus for providing an animated display with translated speech
CN110874137B (zh) 一种交互方法以及装置
WO2014025012A1 (ja) 音声認識方法及び音声認識装置
JP2002091482A (ja) 感情検出方法及び感情検出装置ならびに記録媒体
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
WO2020125038A1 (zh) 语音控制方法及装置
CN110826637A (zh) 情绪识别方法、***及计算机可读存储介质
Mori et al. Conversational and Social Laughter Synthesis with WaveNet.
CN113448433A (zh) 情绪响应型虚拟个人助理
JPH08211986A (ja) あいづち応答のある対話装置
CN117275485B (zh) 一种音视频的生成方法、装置、设备及存储介质
CN113112575B (zh) 一种口型生成方法、装置、计算机设备及存储介质
JPH09269889A (ja) 対話装置
JPH09218770A (ja) 対話処理装置および対話処理方法
JPH02183371A (ja) 自動通訳装置
JP4798039B2 (ja) 音声対話装置および方法
CN111429882A (zh) 播放语音的方法、装置及电子设备
JP2001134642A (ja) 社会的反応特性を利用したエージェントシステム
CN108648758B (zh) 医疗场景中分离无效语音的方法及***
CN108364631B (zh) 一种语音合成方法和装置
JPH10111786A (ja) リズム制御対話装置
JP2000099099A (ja) データ再生装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090615

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090615

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100615

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110615

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120615

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120615

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130615

Year of fee payment: 12

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term