JP6682149B2 - 対話システム、方法、及びプログラム - Google Patents
対話システム、方法、及びプログラム Download PDFInfo
- Publication number
- JP6682149B2 JP6682149B2 JP2017040958A JP2017040958A JP6682149B2 JP 6682149 B2 JP6682149 B2 JP 6682149B2 JP 2017040958 A JP2017040958 A JP 2017040958A JP 2017040958 A JP2017040958 A JP 2017040958A JP 6682149 B2 JP6682149 B2 JP 6682149B2
- Authority
- JP
- Japan
- Prior art keywords
- discussion
- user
- utterance
- dialogue
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の実施の形態の概要について説明する。
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本実施の形態に係る対話システムの構成の一例を示す図である。なお、本発明の実施の形態では、「遊びにいくなら海がよいか山がよいか」という限られた話題(ドメインと呼ぶ)について議論するものとする。ユーザは対話システムに対して発話を発し、当該発話は対話システムに入力される。また、対話システムは、発話をユーザに対して発するものとする。
発話区間検知部22は、入力されたユーザ発話に基づいて、音声の発話区間を検知する。音声のパワーやzero交差の数、ポーズ長などを用いることで、音声の開始時点、音声の終了時点を検出することができる。発話区間の検知は基本的な技術であり、一般的な音声認識エンジンにも組み込まれているものである。発話区間検知部22は音声区間が開始すると開始したという信号(VAD_START)を、マルチモーダル情報記憶部36に伝える。また、音声区間が終了した場合、その信号(VAD_END)をマルチモーダル情報記憶部36に伝える。
音声認識部24は、発話区間検知部22と連携し、検知した音声区間に含まれる音声波形をテキスト化する。
動作検知部26は、センサ12によって検知されたデータに基づいて、ユーザの動作を検知する。具体的には、ユーザが用いるマイクに付与された上げ下げ検知を行う加速度センサとジャイロセンサを用いてユーザがマイクを持ち上げて話し始める動作を検知する。ユーザがマイクを持ち上げたときには、マイクを持ち上げたという信号(MIC_UP)を、マイクを置いた時には、マイクを置いたという信号(MIC_DOWN)をマルチモーダル情報記憶部36に送る。
発話入力部28は、音声認識部24から発話テキストを受け取り、対話行為変換部50、議論判定部52、議論構造内判定部54、及びドメイン判定部56にそれぞれ送る。
対話行為変換部50は発話テキストを入力とし、対話行為を推定する。対話行為とは、ユーザ発話の発話意図を表すシンボルである。ここでは、4種類の対話行為を用いる。
[非特許文献7]Yoon Kim,"Convolutional Neural Networks for Sentence Classication", Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.1746-1751, 2014.
議論構造内判定部54は、ユーザが発話した内容が、議論構造の中(ノードのいずれか)に対応するもの(意味的に類似するもの)があるかどうかを判定する。対応するものがある場合、そのノード番号とその類似度を出力する。議論構造については後述する。
ドメイン判定部56は、ユーザ発話が所定のドメインに属しているかを推定する。今回の例は、「遊びにいくなら海がよいか山がよいか」というドメインであるので、ユーザ発話の話題がこのドメインにどの程度合致するかを判定する。ここでも、対話行為変換部50と同様、当該ドメインのテキストと、当該ドメインではないテキストを学習データとして機械学習の手法により分類器を学習すればよい。学習データが十分ない場合は、たとえば、議論構造内のノードに紐づけられた文字列のそれぞれから、議論構造内判定部54で用いているものと同様の平均ベクトルを求め、発話テキストの平均ベクトルとそれぞれのノードの平均ベクトルとの全ての類似度を求め、所定の閾値よりも大きいものが無ければ、当該ドメインでないと判定すればよい。たとえば閾値は0.5 である。
対話管理部32は、ユーザ発話の文字列と、対話行為変換部50、議論判定部52、議論構造内判定部54、及びドメイン判定部56の結果とを受け取り、図2に示す通り次の動作(アクション)を決定する。なお、ここでは信頼度の情報は用いず、結果のみを対象として次の動作を決定するが、信頼度の閾値を操作することで、信頼度が高い場合のみに所定の動作するようにするなど、適合率を重視した判定を行うようにしてもよい。
議論構造記憶部34は、議論の中心となる論拠と、他の論拠を支持する、または支持しない論拠との各々を表すノードを含む議論構造を記憶している。議論構造にはウォルトンの議論構造を用いる。ただし、ここでは、議論スキームは扱わない。Premise を表すノードはプラスかマイナスの矢印によってのみ接続されている。矢印元と矢印先のノードがある時、矢印元は子ノード、矢印先は親ノードと呼ぶ。Main Issue 以外のノードは必ず親ノードが存在する。各ノードは少なくとも以下のノード番号、サイド、命題を表す文字列、Mentionedフラグ、Questionedフラグ、及びAcceptedフラグを持つものとする。
マルチモーダル情報記憶部36は、VAD_START、VAD_END、RECG_SP、RECG_LP、MIC_UP、MIC_DOWN、TTS_START、TTS_END の信号を受け取り、マルチモーダル情報記憶部36が管理するマルチモーダル情報が更新される。マルチモーダル情報には、ユーザとシステムを表す状態が含まれており、入力にしたがって、ユーザとシステムの状態を更新する。本実施の形態では、マルチモーダル情報記憶部36は、ユーザの状態を、入力された信号に応じて以下のようにマルチモーダル情報を更新する。
VAD_ENDの信号を受け取ると、話者の状態を話していない状態にする。
RECG_SPの信号を受け取ると、話者のショートポーズが行われたので、発話生成部40に相槌命令を送る。
RECG_LPの信号を受け取ると、話者の状態を話していない状態にする。
MIC_UPの信号を受け取ると、話者の状態を話す可能性があるという状態にする。
MIC_DOWNの信号を受け取ると、話者の状態を話す可能性がないという状態にする。
TTS_STARTの信号を受け取ると、システムの状態を話している状態にする。
TTS_ENDの信号を受け取ると、システムの状態を話していない状態にする。
雑談応答部38は、対話管理部32から入力される発話文字列から、雑談応答を生成する。ここでは、用例ベースの雑談応答を行う。具体的には、想定される入力発話(input部)とそれに対する出力発話(output部)のペアを大量に準備しておき、入力された発話文字列と最も意味的に類似するinput部を求め(たとえば、前述のword2vecによる手法や単語のオーバーラップ数などを用いればよい)、そのinput部のペアとなっているoutput部を得て、それを発話生成部40に出力する。なお、雑談応答として、いわゆるif-then ルールで応答してもよいし、その他の雑談対話システムでよく用いられる抽出ベースの手法や深層学習(特に、再帰型ニューラルネットワークによる手法)を用いてもよい。入力発話に関係し、話を継続させることが可能と思われる発話を生成できるものであればよい。
発話生成部40は、対話管理部32から送られた発話文字列、マルチモーダル情報から送られた相槌命令、雑談応答部38から送られた発話文字列を入力とし、これらを音声合成部42に送る。相槌命令の場合は「はい」や「ええ」といった発話文字列(これらは事前に定義しておく)を音声合成部42に送る。
音声合成部42は、発話生成部40から送られた発話文字列を基に音声波形を生成し、システム発話として音声で出力部90により出力する。本発明の実施の形態では、音声合成エンジンとして、出願人のFutureVoiceを用いるが、その他の市販の音声合成エンジンを用いてもよい。なお、音声合成を開始する際には、TTS_STARTという信号をマルチモーダル情報記憶部36に送る。また、音声合成が終了した際には、TTS_ENDという信号をマルチモーダル情報記憶部36に送る。
次に、本実施の形態に係る対話システム100の作用について説明する。まず、ユーザと対話システム100との対話が開始され、入力部10により、ユーザ発話の入力を受け付けると、対話システム100によって、図3に示す対話処理ルーチンが実行される。対話処理ルーチンは、ユーザの発話が発せられる毎に実行される。
12 センサ
20 演算部
22 発話区間検知部
24 音声認識部
26 動作検知部
28 発話入力部
30 発話判定部
32 対話管理部
34 議論構造記憶部
36 マルチモーダル情報記憶部
38 雑談応答部
40 発話生成部
42 音声合成部
50 対話行為変換部
52 議論判定部
54 議論構造内判定部
56 ドメイン判定部
90 出力部
100 対話システム
Claims (8)
- ユーザ発話を表すテキストに基づいて、テキストを複数種類の対話行為に分類する分類器を用いて、前記ユーザ発話についての対話行為を推定する対話行為変換部と、
前記ユーザ発話を表すテキストに基づいて、テキストが所定のドメインに属しているか否かを分類する分類器を用いて、前記ユーザ発話について、前記所定のドメインに属しているか否かを判定するドメイン判定部と、
前記ユーザ発話を表すテキストに基づいて、前記ユーザ発話について、議論に関するものであるか否かを判定する議論判定部と、
議論の中心となる論拠と、他の論拠を支持する、または支持しない論拠との各々を表すノードを含む議論構造の各ノードのうち、前記ユーザ発話に対応するノードがあるか否か、及び前記ユーザ発話に対応するノードが何れであるかを、前記ノードのテキストと、前記ユーザ発話を表すテキストとの意味的な類似度に基づいて判定する議論構造内判定部と、
前記ドメイン判定部による判定結果、前記議論判定部による判定結果、及び前記議論構造内判定部による判定結果に基づいて、システム側の次の行動として、前記推定された前記対話行為と前記判定されたノードとに基づいて前記議論構造を更新する議論構造更新、前記所定のドメインに属していない旨を応答するドメイン外処理、議論ができない旨を応答する議論構造外処理、及び議論とは関係ない雑談に対する応答を行う雑談処理の何れかを決定する対話管理部と、
を含む対話システム。 - 前記対話管理部は、前記ユーザ発話が議論に関するものであり、かつ、前記ユーザ発話に対応するノードがあり、かつ、前記ユーザ発話が前記所定のドメインに属している場合、システム側の次の行動として、前記議論構造更新を決定し、
前記ユーザ発話が前記所定のドメインに属していない場合、システム側の次の行動として、前記ドメイン外処理を決定し、
前記ユーザ発話が議論に関するものであり、かつ、前記ユーザ発話に対応するノードがなく、かつ、前記ユーザ発話が前記所定のドメインに属している場合、システム側の次の行動として、前記議論構造外処理を決定し、
前記ユーザ発話が議論に関するものでなく、かつ、前記ユーザ発話が前記所定のドメインに属している場合、システム側の次の行動として、前記雑談処理を決定する請求項1記載の対話システム。 - ユーザの状態を表すマルチモーダル情報を格納するマルチモーダル情報記憶部と、
前記ユーザの動作に基づいて、前記マルチモーダル情報を更新するユーザ動作検知部と、を更に含み、
前記対話管理部は、更に、前記マルチモーダル情報に応じて、決定したシステム側の次の行動を行う請求項1又は2記載の対話システム。 - ユーザ発話を表すテキストに基づいて、テキストを複数種類の対話行為に分類する分類器を用いて、前記ユーザ発話についての対話行為を推定する対話行為変換部と、
前記ユーザ発話を表すテキストに基づいて、テキストが所定のドメインに属しているか否かを分類する分類器を用いて、前記ユーザ発話について、前記所定のドメインに属しているか否かを判定するドメイン判定部と、
議論の中心となる論拠と、他の論拠を支持する、または支持しない論拠との各々を表すノードを含む議論構造の各ノードのうち、前記ユーザ発話に対応するノードがあるか否か、及び前記ユーザ発話に対応するノードが何れであるかを、前記ノードのテキストと、前記ユーザ発話を表すテキストとの意味的な類似度に基づいて判定する議論構造内判定部と、
前記ドメイン判定部による判定結果、前記議論構造内判定部による判定結果、及び前記ユーザ発話が議論に関するものであるか否かを表す情報に基づいて、システム側の次の行動として、前記推定された前記対話行為と前記判定されたノードとに基づいて前記議論構造を更新する議論構造更新、前記所定のドメインに属していない旨を応答するドメイン外処理、議論ができない旨を応答する議論構造外処理、及び議論とは関係ない雑談に対する応答を行う雑談処理の何れかを決定する対話管理部と、
を含む対話システム。 - 対話システムが実行する対話方法であって、
対話行為変換部が、ユーザ発話を表すテキストに基づいて、テキストを複数種類の対話行為に分類する分類器を用いて、前記ユーザ発話についての対話行為を推定し、
ドメイン判定部が、前記ユーザ発話を表すテキストに基づいて、テキストが所定のドメインに属しているか否かを分類する分類器を用いて、前記ユーザ発話について、前記所定のドメインに属しているか否かを判定し、
議論判定部が、前記ユーザ発話を表すテキストに基づいて、前記ユーザ発話について、議論に関するものであるか否かを判定し、
議論構造内判定部が、議論の中心となる論拠と、他の論拠を支持する、または支持しない論拠との各々を表すノードを含む議論構造の各ノードのうち、前記ユーザ発話に対応するノードがあるか否か、及び前記ユーザ発話に対応するノードが何れであるかを、前記ノードのテキストと、前記ユーザ発話を表すテキストとの意味的な類似度に基づいて判定し、
対話管理部が、前記ドメイン判定部による判定結果、前記議論判定部による判定結果、及び前記議論構造内判定部による判定結果に基づいて、システム側の次の行動として、前記推定された前記対話行為と前記判定されたノードとに基づいて前記議論構造を更新する議論構造更新、前記所定のドメインに属していない旨を応答するドメイン外処理、議論ができない旨を応答する議論構造外処理、及び議論とは関係ない雑談に対する応答を行う雑談処理の何れかを決定する
対話方法。 - 前記対話管理部が決定することでは、前記ユーザ発話が議論に関するものであり、かつ、前記ユーザ発話に対応するノードがあり、かつ、前記ユーザ発話が前記所定のドメインに属している場合、システム側の次の行動として、前記議論構造更新を決定し、
前記ユーザ発話が前記所定のドメインに属していない場合、システム側の次の行動として、前記ドメイン外処理を決定し、
前記ユーザ発話が議論に関するものであり、かつ、前記ユーザ発話に対応するノードがなく、かつ、前記ユーザ発話が前記所定のドメインに属している場合、システム側の次の行動として、前記議論構造外処理を決定し、
前記ユーザ発話が議論に関するものでなく、かつ、前記ユーザ発話が前記所定のドメインに属している場合、システム側の次の行動として、前記雑談処理を決定する請求項5記載の対話方法。 - ユーザ動作検知部が、ユーザの動作に基づいて、前記ユーザの状態を表すマルチモーダル情報を格納するマルチモーダル情報記憶部の前記マルチモーダル情報を更新すること、及び
前記対話管理部が、前記マルチモーダル情報に応じて、決定したシステム側の次の行動を行うこと
を更に含む請求項5又は6記載の対話方法。 - コンピュータを、請求項1〜請求項4の何れか1項記載の対話システムを構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017040958A JP6682149B2 (ja) | 2017-03-03 | 2017-03-03 | 対話システム、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017040958A JP6682149B2 (ja) | 2017-03-03 | 2017-03-03 | 対話システム、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018147189A JP2018147189A (ja) | 2018-09-20 |
JP6682149B2 true JP6682149B2 (ja) | 2020-04-15 |
Family
ID=63591146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017040958A Active JP6682149B2 (ja) | 2017-03-03 | 2017-03-03 | 対話システム、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6682149B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102098003B1 (ko) * | 2018-10-11 | 2020-04-07 | 삼성생명보험주식회사 | 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체 |
JP7212888B2 (ja) * | 2019-05-20 | 2023-01-26 | 日本電信電話株式会社 | 自動対話装置、自動対話方法、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009193532A (ja) * | 2008-02-18 | 2009-08-27 | Oki Electric Ind Co Ltd | 対話管理装置、方法及びプログラム、並びに意識抽出システム |
JP5286062B2 (ja) * | 2008-12-11 | 2013-09-11 | 日本電信電話株式会社 | 対話装置、対話方法、対話プログラムおよび記録媒体 |
JP5369813B2 (ja) * | 2009-03-25 | 2013-12-18 | 富士通株式会社 | 説得支援装置、説得支援プログラム及び説得支援方法 |
JP5698306B2 (ja) * | 2013-05-13 | 2015-04-08 | 日本電信電話株式会社 | 焦点推定装置、方法、及びプログラム |
-
2017
- 2017-03-03 JP JP2017040958A patent/JP6682149B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018147189A (ja) | 2018-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10642577B2 (en) | Search and knowledge base question answering for a voice user interface | |
US10580404B2 (en) | Indicator for voice-based communications | |
JP6926241B2 (ja) | ホットワード認識音声合成 | |
US10453449B2 (en) | Indicator for voice-based communications | |
CN107480122B (zh) | 人工智能交互方法及人工智能交互装置 | |
US10854191B1 (en) | Machine learning models for data driven dialog management | |
US12033622B1 (en) | Target-device resolution | |
US11348601B1 (en) | Natural language understanding using voice characteristics | |
US11276403B2 (en) | Natural language speech processing application selection | |
US11398226B1 (en) | Complex natural language processing | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
US10600419B1 (en) | System command processing | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
Harwath et al. | Zero resource spoken audio corpus analysis | |
US11990122B2 (en) | User-system dialog expansion | |
US20230377574A1 (en) | Word selection for natural language interface | |
JP6682149B2 (ja) | 対話システム、方法、及びプログラム | |
Alam et al. | Comparative study of speaker personality traits recognition in conversational and broadcast news speech. | |
US11693622B1 (en) | Context configurable keywords | |
US11626107B1 (en) | Natural language processing | |
US11682400B1 (en) | Speech processing | |
US11741945B1 (en) | Adaptive virtual assistant attributes | |
US10929601B1 (en) | Question answering for a multi-modal system | |
US20220161131A1 (en) | Systems and devices for controlling network applications | |
US11699444B1 (en) | Speech recognition using multiple voice-enabled devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191119 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6682149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |