JPH08211986A - あいづち応答のある対話装置 - Google Patents
あいづち応答のある対話装置Info
- Publication number
- JPH08211986A JPH08211986A JP7020346A JP2034695A JPH08211986A JP H08211986 A JPH08211986 A JP H08211986A JP 7020346 A JP7020346 A JP 7020346A JP 2034695 A JP2034695 A JP 2034695A JP H08211986 A JPH08211986 A JP H08211986A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- unit
- voice
- response
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Input From Keyboards Or The Like (AREA)
Abstract
発話中にあいづちを挿入し、人とコンピュータとの間で
の自然でスムースな対話を実現する。 【構成】 音声入力部1より入力された音声は、音響分
析部2にて特徴量に変換される。マッチング部3では、
入力音声の特徴量と、あらかじめキーワード格納部4に
登録されているキーワードの特徴量とを比較し、キーワ
ードの検出を行う。このとき、時間情報取得部5により
キーワードの発声の終了時刻が得られ、キーワードの情
報とともに出力部6に送られる。出力部では、前記時間
情報取得部より得られた現在時刻とキーワードの終了時
刻を比較し、その差がある閾値より大きくなると、あい
づちの応答を出力する。
Description
話装置、より詳細には、人間とコンピュータが音声ある
いは身振りを通じて対話する対話装置に関する。
できるように、音声入力に対して対応する対話装置が考
えられてきた。これは、人間の発する音声を認識し、そ
れに応じてシステムの内部状態を変化させ、あらかじめ
決められた出力をし、人間との対話を実現しようとした
ものである。また、コンピュータとの対話をより円滑に
行えるように、入力音声に対して適切なタイミングでア
ニメーション等が応答する音声反応システムが提案され
ている。これは、音声の発声レベル等を検出し、それに
応じて反応するシステムである。
を実現するのに、発話が終了してから、あるいは、呼気
段落で、音声を理解する処理が始められることが多い。
しかし、このようにすると、処理時間がかかるため、人
は発話が終了してからしばらくしてシステムの応答を見
ることになる。このような対話は、現実の人間対人間の
対話ではなく、違和感が生じ、対話がスムーズに進行し
ない。
題を解決するために、(1)音声を入力する音声入力部
と、入力された音声の特徴量を求める音響分析部と、予
め決められたキーワードを設定し、そのキーワードの特
徴量を格納するキーワード格納部と、現在時刻を得るた
めの時間情報取得部と、入力音声中のキーワードを検出
し、前記キーワード格納部のキーワードと比較するマッ
チング部と、あいづちの応答をする出力部とを備え、入
力音声中のキーワードに反応するあいづちを出力するこ
とを特徴としたものであり、更には、(2)前記(1)
において、あいづちの応答をした後、一定の時間、あい
づちの応答を抑制する出力制御部を備えたこと、更に
は、(3)前記(1)又は(2)において、あいづちの
応答をした後、該あいづちに用いたキーワードに応じて
次に認識すべきキーワードを生成し、設定する対話管理
部を備えたこと、更には、(4)入力音声中のキーワー
ドを認識する音声認識部と、入力画像中のキー動作を認
識する動作認識部と、現在時刻を得るための時間情報取
得部と、音声認識部からの情報と動作認識部からの情報
を統合する統合部と、あいづち応答をする出力部とを備
え、入力音声や動作に反応するあいづちを出力すること
を特徴としたものである。
た音声は、音響分析部にて特徴量に変換される。マッチ
ング部では、入力音声の特徴量と、あらかじめキーワー
ド格納部に登録されているキーワードの特徴量とを比較
し、キーワードの検出が行われる。このとき、時間情報
取得部によりキーワード発声の終了時刻が得られ、キー
ワードの情報とともに出力部に送られる。出力部では、
前記時間情報取得部より得られた現在時刻とキーワード
の終了時刻を比較し、その差がある閾値より大きくなる
と、あいづちの応答を出力する。請求項2の発明では、
キーワードマッチング部より出力されたキーワードの終
了時刻が、前回あいづち応答をしてからある時間が経過
するまでは、応答を抑制する、つまり、出力部に出力し
ないようにし、あいづちが頻繁に起こり、対話が円滑に
進行しなくなることを防ぐ。請求項3の発明では、検出
されたキーワードに応じてシステムの内部状態を変化さ
せ、次に認識すべきキーワードを生成し、キーワード格
納部に記憶しておく。これにより、次に認識すべきキー
ワードを限定し、処理時間の縮小を図る。請求項4の発
明では、音声から得られたキーワードの終了時刻と、動
作から得られたキー動作の終了時間とのどちらか一方の
情報で、あいづちの応答を出力するようにし、より人間
の発声・動作に反応したあいづちを生成し、より円滑な
対話を実現する。
説明するための構成図で、図中、1は音声入力部、2は
音響分析部、3はマッチング部、4はキーワード格納
部、5は時間情報取得部、6は出力部で、人間が発声し
た音声はマイク等の音声入力部1により装置に取り込ま
れ、取り込まれた音声信号はAD変換され、音響分析部
2において処理単位(フレーム)毎に特徴量(メルケプ
ストラム)に変換される。ここでは、1フレームは10
msに相当する。あらかじめ認識すべきキーワードにつ
いてその特徴量を求め、キーワード格納部4に記憶して
おく。マッチング部3では、キーワード格納部4に記憶
されているキーワードの特徴量と入力音声の特徴量をフ
レーム単位毎に比較し、キーワードの検出を行う。この
ときの処理として、例えば、連続DP(Dynamic Progra
mming)マッチング法などが用いられる。
されている場合で、入力音声として「私、シャープの湯
浅と申します」が入力された時のキーワードと入力音声
との距離をフレーム毎に表示したものである。ここで
は、Tminは距離が最小になった時点、Dminはそのとき
の距離、Teは実際にキーワードが検出される時点であ
る。
フレーム数で、ここでは3フレーム(=30(mse
c))である。したがって、Tminは、 Tmin=Te−Td より求められる。以下、キーワード終了時刻としてT
minを用いる。
得られる現在時刻tが、 t=Tmin+TM を満たすと、あいづちの応答を行う。ここで、TMは人
間同士の対話の中で、あいづちの挿入されるタイミング
を解析して得られた値で、ここでは0.5(sec)で
ある。このTMの値は、システムの内部状態に応じて値
を変えることも考えられる。また、キーワードの検出時
に、キーワードの開始時刻も検出されるので、開始時刻
からの時間であいづちの応答をすることも考えられる。
あいづちの応答として、人間の姿をしたCG(Computer
Graphics)合成のモデルを音声出力「はい」と首を縦
に振るうなずきの動作をさせて行う。また、まばたきな
どをさせることも考えられる。
を説明するための構成図で、図中、1は音声入力部、2
は音響分析部、3はマッチング部、4はキーワード格納
部、5は時間情報取得部、6は出力部、7は出力制御部
で、出力制御部7では、前記マッチング部3より得られ
たキーワード終了時刻Tminと前回あいづち応答に係わ
ったキーワード終了時刻tcが確率関数fで評価され、 f(Tmin−tc)>0.5 を満たす場合、キーワード終了時刻の情報が出力部6に
送られ、図1の場合と同様の手法であいづちの応答がさ
れる。このとき、tcの値がTminの値で更新される。満
たさない場合は、キーワード終了時刻の情報は、出力部
6に送られない。確率関数fは、0から1までの乱数を
一様に発生する関数で、その平均値が図6に示すような
値となるものである。この関数は、人間対人間の対話を
解析して得られたものを簡略化したもので、人間対人間
の対話の場合、約1〜2秒間隔であいづちが挿入される
ことが最も多かったという解析結果から得られたもので
ある。この関数により、あいづちの応答があってから後
1秒以内は、あいづちが抑制される。
を説明するための構成図で、1は音声入力部、2は音響
分析部、3はマッチング部、4はキーワード格納部、5
は時間情報取得部、6は出力部、7は出力制御部、8は
対話管理部で、対話管理部8では、マッチング部3で検
出されるキーワードに応じてシステムの内部状態を遷移
させる。図7は、このときの状態遷移図の例を示す図
で、各状態の下に書かれた表は、その状態での認識すべ
きキーワードを表している。このキーワードの特徴量は
キーワード格納部4に記憶されている。矢印は状態遷移
の方向を示し、矢印と共に併記したキーワードが検出さ
れた場合、その矢印に沿って状態を変化させることを示
している。例えば、始めシステムの内部状態が「状態
1」にあるときに、「こんにちわ」という音声が入力さ
れると、図7の遷移図より、システムの内部状態は「状
態2」に遷移する。この状態での認識キーワードは、
「はい」「いいえ」等に変更される。
を説明するための構成図で、1は音声入力部、2は音響
分析部、3は音声マッチング部、4はキーワード格納部
で、これらによって音声認識部Iを構成している。11
は画像入力部、12は画像分析部、13は画像マッチン
グ部、14はキー動作格納部で、これらによって動作認
識部IIを構成している。25は時間情報取得部、26は
統合部、27は出力部で、音声認識部Iに関しては、前
述の手法により、入力音声中のキーワードの終了時刻が
検出されるので、以下に画像認識について説明する。
れ、該画像入力部11より人間の動作の画像が装置に取
り込まれ、画像分析部12において、フレーム毎の画像
の特徴量が求められる。あらかじめ決められた動作(以
下、これをキー動作と呼ぶ)の特徴量がキー動作格納部
14に記憶されている。ここでは、キー動作として、首
を縦に振るいわゆる「うなずき」を例に考える。入力画
像からキー動作の終了時刻を、音声認識の場合と同様、
画像マッチング部13において、連続DPなどを用いて
検出する。
動作の例を示すが、ここでは、入力音声中から、キーワ
ード1、キーワード2、キーワード3が、入力画像中か
ら、うなずき1、うなずき2、うなずき3が検出された
例を示している。統合部26には、音声マッチング部3
からキーワードの終了時刻の情報が、画像マッチング部
13からキー動作の終了時刻の情報が順次入力される。
この統合部26では、キーワードの終了時刻およびキー
動作の終了時刻の情報を前述の確率関数fに適用して、
出力部27に出力する情報の制御を行う。
あいづちが挿入されるので、コンピュータと自然でスム
ースな対話が実現できる。 請求項2の発明に対応する効果:あいづちが頻繁に起こ
り、違和感が生じるのを防止することができる。 請求項3の発明に対応する効果:認識対象のキーワード
を限定することで処理量の削減が実現できる。 請求項4の発明に対応する効果:人間の動作や発声内容
に反応してあいづちが挿入されるので、より円滑な対話
が実現できる。
めの構成図である。
めの構成図である。
めの構成図である。
めの構成図である。
を表わす図である。
ある。
明するための図である。
部、4…キーワード格納部、5…時間情報取得部、6…
出力部、7…出力制御部、8…対話管理部、11…画像
入力部、12…画像分析部、13…画像マッチング部、
14…キー動作格納部、25…時間情報取得部、26…
統合部、27…出力部、I…音声認識部、II…画像認識
部。
Claims (4)
- 【請求項1】 音声を入力する音声入力部と、入力され
た音声の特徴量を求める音響分析部と、予め決められた
キーワードを設定し、そのキーワードの特徴量を格納す
るキーワード格納部と、現在時刻を得るための時間情報
取得部と、入力音声中のキーワードを検出し、前記キー
ワード格納部のキーワードと比較するマッチング部と、
あいづちの応答をする出力部とを備え、入力音声中のキ
ーワードに反応するあいづちを出力することを特徴とす
るあいづち応答のある対話装置。 - 【請求項2】 請求項1において、あいづちの応答をし
た後、一定の時間、あいづちの応答を抑制する出力制御
部を備えたことを特徴とする対話装置。 - 【請求項3】 請求項1又は2において、あいづちの応
答をした後、該あいづちに用いたキーワードに応じて次
に認識すべきキーワードを生成し、設定する対話管理部
を備えたことを特徴とする対話装置。 - 【請求項4】 入力音声中のキーワードを認識する音声
認識部と、入力画像中のキー動作を認識する動作認識部
と、現在時刻を得るための時間情報取得部と、音声認識
部からの情報と動作認識部からの情報を統合する統合部
と、あいづち応答をする出力部とを備え、入力音声や動
作に反応するあいづちを出力することを特徴とするあい
づち応答のある対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02034695A JP3199972B2 (ja) | 1995-02-08 | 1995-02-08 | あいづち応答のある対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02034695A JP3199972B2 (ja) | 1995-02-08 | 1995-02-08 | あいづち応答のある対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08211986A true JPH08211986A (ja) | 1996-08-20 |
JP3199972B2 JP3199972B2 (ja) | 2001-08-20 |
Family
ID=12024576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02034695A Expired - Lifetime JP3199972B2 (ja) | 1995-02-08 | 1995-02-08 | あいづち応答のある対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3199972B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003040A (ja) * | 2007-06-20 | 2009-01-08 | Univ Waseda | 音声対話装置、音声対話方法及びロボット装置 |
JP2015152868A (ja) * | 2014-02-18 | 2015-08-24 | シャープ株式会社 | 情報処理装置 |
JP2018160248A (ja) * | 2018-05-01 | 2018-10-11 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
JPWO2018078885A1 (ja) * | 2016-10-31 | 2019-06-24 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
CN109994106A (zh) * | 2017-12-29 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种语音处理方法及设备 |
JP2020024522A (ja) * | 2018-08-06 | 2020-02-13 | 株式会社エルブズ | 情報提供装置、情報提供方法およびプログラム |
JP2020190587A (ja) * | 2019-05-20 | 2020-11-26 | カシオ計算機株式会社 | ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6240577A (ja) * | 1985-08-16 | 1987-02-21 | Toshiba Corp | 音声対話装置 |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
-
1995
- 1995-02-08 JP JP02034695A patent/JP3199972B2/ja not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6240577A (ja) * | 1985-08-16 | 1987-02-21 | Toshiba Corp | 音声対話装置 |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003040A (ja) * | 2007-06-20 | 2009-01-08 | Univ Waseda | 音声対話装置、音声対話方法及びロボット装置 |
JP2015152868A (ja) * | 2014-02-18 | 2015-08-24 | シャープ株式会社 | 情報処理装置 |
WO2015125549A1 (ja) * | 2014-02-18 | 2015-08-27 | シャープ株式会社 | 情報処理装置 |
JPWO2018078885A1 (ja) * | 2016-10-31 | 2019-06-24 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
CN109994106A (zh) * | 2017-12-29 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种语音处理方法及设备 |
CN109994106B (zh) * | 2017-12-29 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 一种语音处理方法及设备 |
JP2018160248A (ja) * | 2018-05-01 | 2018-10-11 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
JP2020024522A (ja) * | 2018-08-06 | 2020-02-13 | 株式会社エルブズ | 情報提供装置、情報提供方法およびプログラム |
JP2020190587A (ja) * | 2019-05-20 | 2020-11-26 | カシオ計算機株式会社 | ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3199972B2 (ja) | 2001-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200279553A1 (en) | Linguistic style matching agent | |
US7490042B2 (en) | Methods and apparatus for adapting output speech in accordance with context of communication | |
EP3373301A1 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
US20040068410A1 (en) | Method and apparatus for providing an animated display with translated speech | |
CN110874137B (zh) | 一种交互方法以及装置 | |
WO2014025012A1 (ja) | 音声認識方法及び音声認識装置 | |
JP2002091482A (ja) | 感情検出方法及び感情検出装置ならびに記録媒体 | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
WO2020125038A1 (zh) | 语音控制方法及装置 | |
CN110826637A (zh) | 情绪识别方法、***及计算机可读存储介质 | |
Mori et al. | Conversational and Social Laughter Synthesis with WaveNet. | |
CN113448433A (zh) | 情绪响应型虚拟个人助理 | |
JPH08211986A (ja) | あいづち応答のある対話装置 | |
CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
CN113112575B (zh) | 一种口型生成方法、装置、计算机设备及存储介质 | |
JPH09269889A (ja) | 対話装置 | |
JPH09218770A (ja) | 対話処理装置および対話処理方法 | |
JPH02183371A (ja) | 自動通訳装置 | |
JP4798039B2 (ja) | 音声対話装置および方法 | |
CN111429882A (zh) | 播放语音的方法、装置及电子设备 | |
JP2001134642A (ja) | 社会的反応特性を利用したエージェントシステム | |
CN108648758B (zh) | 医疗场景中分离无效语音的方法及*** | |
CN108364631B (zh) | 一种语音合成方法和装置 | |
JPH10111786A (ja) | リズム制御対話装置 | |
JP2000099099A (ja) | データ再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090615 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090615 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100615 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110615 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130615 Year of fee payment: 12 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |