JP6115941B2 - 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法 - Google Patents

対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法 Download PDF

Info

Publication number
JP6115941B2
JP6115941B2 JP2013068523A JP2013068523A JP6115941B2 JP 6115941 B2 JP6115941 B2 JP 6115941B2 JP 2013068523 A JP2013068523 A JP 2013068523A JP 2013068523 A JP2013068523 A JP 2013068523A JP 6115941 B2 JP6115941 B2 JP 6115941B2
Authority
JP
Japan
Prior art keywords
dialog
scenario
dialogue
user
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013068523A
Other languages
English (en)
Other versions
JP2014191272A (ja
Inventor
▲シン▼ 徐
▲シン▼ 徐
加藤 恒夫
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013068523A priority Critical patent/JP6115941B2/ja
Publication of JP2014191272A publication Critical patent/JP2014191272A/ja
Application granted granted Critical
Publication of JP6115941B2 publication Critical patent/JP6115941B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、対話シナリオを用いてユーザと対話する対話システムの技術に関する。
人間に対して自然な対話を実現した対話システムが、スマートフォンやタブレット端末で普及しつつある。特に、コンピュータグラフィックスのキャラクタが、音声で会話する対話エージェントとして機能する技術がある(例えば特許文献1参照)。近年、ユーザから見て、対話エージェントに対する抵抗感も無くなってきており、自然な会話を楽しむことができる。端末は、ユーザとエージェントとの間の会話を通じて、ユーザに特別な意識を持たせることなく、ユーザの状況、趣味趣向、又は感情のようなユーザ情報を取得することができる。これらユーザ情報は、ユーザプロファイルとして、様々なアプリケーションによって利用することができる。
ユーザは、対話システムを搭載したスマートフォンに対して、質問を語りかけることができる。スマートフォンは、ユーザの声を認識し、意味解析によってその質問の意図を理解し、回答すると共に、最適なサービス機能(例えばメール、スケジューラ、アラーム等)を自動的に起動することもできる(例えば非特許文献1参照)。その回答文は、エージェントから音声合成された声で発せられるものであってもよいし、ディスプレイに表示されるものであってもよい。このように、対話シナリオの中で、新規なサービス機能を起動するために、ランチャ機能が用いられる。ランチャ機能は、エージェントを用いる対話システムを大幅に修正することなく、対話の新規機能として簡易に追加することができる。
図1は、従来技術における対話システムの機能構成図である。
図1(a)によれば、例えばスマートフォンのような単体装置に搭載されたコンピュータを機能させるプログラム(アプリケーション)であって、対話シナリオ進行部と、対話インタラクション部と、キャラクタ表示制御部とを一体的に含んでいる(例えば特許文献1参照)。対話シナリオ進行部は、多数の対話ノードのツリーを予め記憶しており、ユーザからの返答に応じて辿ることによって、ユーザとの間の対話を進めていく。対話インタラクション部は、対話ノードの文をスピーカから音声合成によって発声する。また、マイクによってユーザからの声を取得し、音声認識及び意味解析を実行し、その回答文を対話シナリオ進行部へ出力する。キャラクタ表示制御部は、キャラクタエージェントをディスプレイに表示し、対話ノードに基づく会話によってそのエージェントの動きを制御する。
図1(b)によれば、対話サーバと端末とがネットワークを介して接続されたシステムである。対話サーバは、対話シナリオ進行部と対話インタラクション部とを有し、端末は、対話クライアント部とキャラクタ表示制御部とを有する。端末の対話クライアント部は、対話サーバの対話インタラクション部に対して、端末側のスピーカ及びマイクのようなデバイスのインタフェースとして機能する。
特開2006−323875号公報
NTTドコモ、「しゃべってコンシェル」、[online]、[平成25年2月24日検索]、インターネット<URL:http://www.nttdocomo.co.jp/service/information/shabette_concier/>
特許文献1に記載された技術によれば、図1(a)のように全ての機能モジュールが一体的なアプリケーションとして構成されている。そのために、例えばアラーム機能のような既存の設定機能を、対話シナリオに追加することが難しい。
また、非特許文献1に記載された技術によれば、ランチャ機能によって対話シナリオとサービス機能の起動とを関連付けている。しかしながら、ランチャ機能によって起動したサービス機能と、対話シナリオとの間で、統一感のある対話を実現することは難しい。即ち、対話シナリオ自体は、起動されたサービス機能に関して、ユーザとの間で何ら対話することはない。
具体的には、対話の中で、ランチャ機能によって例えば既存のアラーム設定機能(アプリケーション)が起動されたとしても、その後、ユーザは、従来通り、アラーム設定アプリケーションに対してしか操作することができない。そのアラーム設定に関する操作が不明となり、エージェントの対話入力に切り替えても、対話シナリオは、アラーム設定に対する操作過程を認識していない。結果的に、ユーザは、アラーム設定機能に対して手動(例えばタッチパネルを用いて)入力操作をするか、エージェントに対して音声入力するか、のいずれか一方の操作しかすることができない。
本発明は、対話シナリオの進行の中で、既存のアプリケーションに対するユーザの操作を、ユーザの回答として認識することができる対話プログラム、装置、サーバ及び方法を提供することを目的とする。
本発明によれば、ユーザと対話的にシナリオを進行するようにコンピュータを機能させる対話プログラムであって、
ユーザへ明示すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積手段と、
対話シナリオ蓄積手段を用いて、対話ノードを遷移しながらシナリオを進行する対話シナリオ進行手段と、
対話シナリオ進行手段によって、対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を発行する対話コマンド要求発行手段と、
対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受け付ける対話コマンド応答受付手段と
してコンピュータを機能させ、
対話シナリオ進行手段は、ユーザによって回答された文、又は、対話コマンド応答のユーザ操作内容、に基づいて対話的にシナリオを進行する
ようにコンピュータを機能させることを特徴とする。
本発明の対話プログラムにおける他の実施形態によれば、
対話コマンド要求発行手段は、対話シナリオ進行手段によって、実行された対話ノードに対応付けられた文を含む対話コマンド要求を発行し、
対話コマンド応答受付手段は、ユーザによって回答された文を含む対話コマンド応答を受け付ける
ようにコンピュータを更に機能させることも好ましい。
本発明によれば、ユーザ操作に基づく端末と通信し、該端末を通じてユーザと対話的にシナリオを進行する装置であって、
端末へ送信すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積手段と、
対話シナリオ蓄積手段を用いて、対話ノードを遷移しながらシナリオを進行する対話シナリオ進行手段と、
対話シナリオ進行手段によって、対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を端末へ送信する対話コマンド要求発行手段と、
対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受信する対話コマンド応答受付手段と、
キャラクタエージェントをディスプレイに表示すると共に、対話シナリオ進行手段によって進行中の対話ノードに対応付けられた文を明示し、ユーザから取得した文を対話シナリオ進行手段へ通知するエージェント手段と、
対話コマンド要求発行手段から発行された対話コマンド要求に応じたアプリケーションへ指示し、ユーザ操作内容を表す対応コマンド応答を対話コマンド応答受付手段へ通知するアプリケーション制御手段と
を有し、
対話シナリオ進行手段は、端末から受信した、ユーザによって回答された文、又は、対話コマンド応答のユーザ操作内容に基づいて、対話的にシナリオを進行する
ことを特徴とする。
本発明によれば、ユーザ操作に基づく端末と通信し、該端末を通じてユーザと対話的にシナリオを進行する対話サーバであって、
端末へ送信すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積手段と、
対話シナリオ蓄積手段を用いて、対話ノードを遷移しながらシナリオを進行する対話シナリオ進行手段と、
対話シナリオ進行手段によって、対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を端末へ送信する対話コマンド要求発行手段と、
対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受信する対話コマンド応答受付手段と
を有し、
対話シナリオ進行手段は、端末から受信した、ユーザによって回答された文、又は、対話コマンド応答のユーザ操作内容に基づいて、対話的にシナリオを進行する
ことを特徴とする。
本発明によれば、ユーザ操作に基づく端末と、該端末を通じてユーザと対話的にシナリオを進行する対話サーバとを有するシステムにおける対話方法であって、
対話サーバは、端末へ送信すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積部を有し、
対話サーバは、
対話シナリオ蓄積部を用いて、対話ノードを遷移しながらシナリオを進行する中で、
対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を端末へ送信する第1のステップと、
対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受信する第2のステップと、
端末から受信した、ユーザによって回答された文、又は、対話コマンド応答のユーザ操作内容に基づいて、対話的にシナリオを進行する第3のステップと
を有することを特徴とする。
本発明の対話プログラム、装置、サーバ及び方法によれば、対話シナリオの進行の中で、既存のアプリケーションに対するユーザの操作を、ユーザの回答として認識することができる。
従来技術における対話システムの機能構成図である。 本発明の装置における機能構成図である。 本発明のシステムにおける機能構成図である。 本発明における音声対話とユーザ操作とが連携して進行する対話シナリオを表す説明図である。 図4のS1における端末の表示画面である。 図4のS2における端末の表示画面である。 図4のS3における端末の表示画面である。 図4のS4における端末の表示画面である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明の装置における機能構成図である。
図3は、本発明のシステムにおける機能構成図である。
図2及び図3によれば、スマートフォンのような装置は、ハードウェアとして、ユーザに対する「音声出力」用のスピーカと、ユーザからの「音声入力」用のマイクと、ユーザに対する文やキャラクタの「ユーザ表示」用のディスプレイとを有する。特に、ディスプレイがタッチパネルディスプレイでである場合、ユーザの指先による「ユーザ操作」用としても機能する。タッチパネルディスプレイによるユーザ操作としては、予め表示されたボタンに対する指の接触押下や、ソフトウェアキーに対する操作であってもよい。勿論、ユーザ操作用として、物理的なキーボードやテンキーを備えたものであってもよい。尚、スマートフォンの場合、加速度センサのようなセンサを搭載したものも多い。
また、図2及び図3によれば、ソフトウェア的に、対話プログラムと、ユーザプログラムと、既存のアプリケーションとを有する。ここで、図2によれば、これら機能モジュールが、スマートフォンのような単体装置に搭載されたコンピュータで一体的に機能させるプログラムを実行することによって実現されている。また、図3によれば、対話プログラムは、サーバに搭載されたコンピュータで実行され、ユーザプログラム及びアプリケーションは、端末に搭載されたコンピュータで実行されている。サーバと端末とがネットワークを介して接続されたシステムによって、図2と同様の対話システムを実現している。
対話プログラムは、ユーザと対話的にシナリオを進行するものであって、バックグランド(例えばサーバ側)で実行される。一方で、ユーザプログラムは、ユーザとのインタフェースになるものであって、フロントグランド(例えば端末側)で実行される。ユーザプログラムは、キャラクタのエージェントの表示を制御すると共に、マイクやスピーカによってユーザとの間の会話のインタフェースとなる。また、ユーザプログラムは、対話プログラムから受信した対話コマンド要求に含まれる文(質問文)を音声信号に変換し、その音声信号をスピーカへ出力する。また、マイクによって取得された音声信号を文(回答文)に変換し、その文を対話コマンド応答に含めて、対話プログラムへ送信する。
<対話プログラム>
対話プログラムは、ユーザと対話的にシナリオを進行するようにコンピュータを機能させる。対話プログラムは、対話シナリオ蓄積部10と、対話シナリオ進行部11と、対話コマンド要求発行部12と、対話コマンド応答受付部13とを有する。
[対話シナリオ蓄積部10]
対話シナリオ蓄積部10は、ユーザへ明示すべき文を対応付けた複数の対話ノードを蓄積する。そして、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている。対話シナリオとは、質問文を含む対話ノードを、ユーザからの回答文に応じてツリー状に構成したものである。また、対話シナリオとは、例えば、ユーザの入力に対する応答パターンを記述するFST(Finite State Transducer)ファイルを扱うスクリプトファイルであってもよい。
本発明によれば、対話ノードに含まれる対話コマンド要求には、アプリケーションを起動するコマンドだけでなく、例えばアラーム設定用のアプリケーションについて以下のようなコマンドも含まれる。
アラーム時間の設定:ALARM_SETTIME_START
リピートの設定 :ALARM_SETREPEAT_START
アラーム音の設定 :ALARM_SETREPEAT_START
また、対話ノードには、キャラクタのエージェントの表示を制御するコマンドも含まれる。
[対話シナリオ進行部11]
対話シナリオ進行部11は、対話シナリオ蓄積部10を用いて、対話ノードを遷移しながらシナリオを進行する。ここで、対話シナリオ進行部11は、ユーザによって回答された文、又は、対話コマンド応答のユーザ操作内容、に基づいて対話シナリオを進行する。
[対話コマンド要求発行部12]
対話コマンド要求発行部12は、対話シナリオ進行部11によって、対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を発行する。対話コマンド要求は、対話ノードに対応付けられた以下のコマンドを含む。
・ユーザ操作を要するアプリケーションへ指示するコマンド
・ユーザに対する文(例えば質問文)を含むコマンド
[対話コマンド応答受付部13]
対話コマンド応答受付部13は、対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受け付ける。前述と同様に、対話コマンド応答は、対話ノードに対応付けられた以下のコマンドを含む。
・アプリケーションに対するユーザ操作の内容を含むコマンド
・ユーザからの文(例えば回答文)を含むコマンド
対話コマンド応答受付部13におけるユーザ操作内容は、ユーザによって現に操作された操作情報に限られず、センサによって取得された周辺状態情報であってもよい。
本発明の対話プログラムは、ユーザプログラムに対して全て、「対話コマンド」として要求し且つ応答を受け付ける。これによって、対話プログラムは、ユーザプログラムに対して、音声やタッチパネルディスプレイによってユーザと会話する「文」だけでなく、アプリケーションに対する「ユーザ操作」も含めて、「対話コマンドのみの記述フォーマットで統一する」ことができる。例えばユーザプログラムが、例えば音声会話にしか対応していない場合、ユーザ操作に基づく対話コマンド要求は無視され、文に基づく対話コマンド要求のみが進行する。このように、対話プログラム自体は、ユーザプログラムに搭載された機能を認識することなく、対話コマンドのみで、対話シナリオを進行させることができる。
<ユーザプログラム>
ユーザプログラムは、ユーザとのインタフェースになるものであって、キャラクタのエージェントの表示を制御すると共に、マイクやスピーカによってユーザとの間の会話のインタフェースとなる。
[エージェント部21]
エージェント部21は、キャラクタエージェントをディスプレイに表示すると共に、進行中の対話ノードに対応付けられた文を明示し、ユーザから取得した文を対話プログラム(対話シナリオ進行部11)へ通知する。ユーザへ明示すべく文(質問文)は、キャラクタの動きや吹き出しによって表示されてもよいし、音声によってスピーカから発せられるものであってもよい。また、ユーザからの文(回答文)は、タッチパネルによるテキスト入力であってもいし、ユーザの声をマイクで取得するものであってもよい。
[アプリケーション制御部22]
アプリケーション制御部22は、対話コマンド要求に応じたアプリケーションへ指示し、ユーザ操作内容を表す対応コマンド応答を、対話プログラム(対話コマンド応答受付部)へ通知する。アプリケーション制御部22は、アプリケーションとのやりとりだけでなく、GPS(Global Positioning System)センサ、加速度センサ、バッテリー残量計測などのセンサを制御することもできる。
ここで、エージェント部21におけるキャラクタと、アプリケーション制御部22におけるサービス機能アプリケーションとは、ディスプレイの画面を分割して表示される。ここで、ユーザ操作に応じて、キャラクタのみの画面にして、サービス機能アプリケーションの機能を一時的に隠すこともできる。同様に、サービス機能アプリケーションのみの画面にして、エージェントの機能を一時的に隠すこともできる。
図4は、本発明における音声対話とユーザ操作とが連携して進行する対話シナリオを表す説明図である。
図4によれば、アラーム設定の対話ノードの進行が表されている。アラーム設定には、以下のような3つの対話ノードが構成されている。
(a)時間設定 :質問文「何時に設定しますか?」
(b)リピート設定:質問文「リピートしますか?」
(c)音設定 :質問文「アラーム音は何にしますか?」
これら全ての対話ノードが実行された後、アラーム設定の終了となる。
図4によれば、以下のようにシナリオが進行している。
(S1) システム :声「何のご用でしょうか?」
ユーザ :声「アラーム時間を設定したい」
−−−[アラーム設定]−−−
(S2) システム :声「何時に設定しますか?」
ユーザ :声「12時」
(システム)※誤って「22時」と認識して表示する
(S3) システム :声「リピートしますか?」
(S31)(ユーザ):※操作によって「12時」に設定する
(S32)(ユーザ):※操作によって「毎日」に設定する
(S4) システム :声「アラーム音は何にしますか?」
ユーザ :声「今までと同じ」
図5は、図4のS1における端末の表示画面である。
対話シナリオ進行部11は、対話コマンド要求発行部12へ、質問文「何のご用でしょうか?」を出力する。対話コマンド要求発行部12は、その質問文を含む対話コマンド要求を、エージェント部21へ送信する。エージェント部21は、その質問文をスピーカから発声する。
(S1) システム:声「何のご用でしょうか?」
ユーザ :声「アラーム時間を設定したい」
これに対し、ユーザが、声で「アラーム時間を設定したい」と発声したとする。この声は、マイクによって取得され、エージェント部21へ出力される。エージェント部21は、その音声情報を、音声認識及び意味解析によって文(回答文)に変換する。ここで、エージェント部21は、アラーム設定アプリケーションの起動と理解し、コマンド[UNDERSTAND_EVENT_START -> |setalarmtime|]を含む対話コマンド応答を、対話コマンド応答受付部13へ送信する。
図6は、図4のS2における端末の表示画面である。
次に、対話シナリオ進行部11は、対話コマンド要求発行部12へ、アラーム設定アプリケーションの起動を表すコマンド[ALARM_SETTIME_START]を出力する。対話コマンド要求発行部12は、そのコマンドを含む対話コマンド要求を、アプリケーション制御部22へ送信する。これによって、アプリケーション制御部22は、アラーム設定アプリケーションを起動する。
図6によれば、ディスプレイの上半分にはアラーム設定アプリケーションが表示され、下半分にはエージェントが表示されている。尚、ユーザ操作に応じて、アラーム設定アプリケーションのみ、又は、エージェントのみの表示への切り替えることもできる。
対話シナリオ進行部11は、対話状態遷移を更新し、次の対話ノードには、設定時間を尋ねる文(質問文)に基づくコマンドが含まれているとする。対話シナリオ進行部11は、そのコマンドを対話コマンド要求発行部12へ出力し、対話コマンド要求発行部12は、そのコマンドを含む対話コマンド要求を、ユーザプログラム2へ送信する。ユーザプログラム2は、その対話コマンド要求のコマンドに対応する質問文「何時に設定しますか?」を、音声合成によって音声信号に変換する。そして、エージェント部21が、その質問文をスピーカから発声する。
(S2) システム:声「何時に設定しますか?」
ユーザ :声「12時」
これに対し、ユーザが、声で「12時」と発声したとする。この声は、マイクによって取得され、エージェント部21へ出力される。ここで、エージェント部21は、その音声情報を、音声認識及び意味解析によって、誤って「22時」と認識したとする。
(システム)※誤って「22時」と認識して表示する
そして、エージェント部21は、コマンド[ALARM_SETTIME_START->|22:00|]を、対話プログラム1の対話コマンド応答受付部13へ送信する。対話コマンド応答受付部13は、対話シナリオ進行部11へ、コマンド[ALARM_SETTIME_START->|22:00|]を出力する。対話シナリオ進行部11は、ユーザがアラームを「22時」に設定したと判断する。
これに対し、対話プログラム1の対話シナリオ進行部11は、コマンド[ALARM_SETTIME_START->|22:00|]を対話コマンド要求発行部12へ出力し、対話コマンド要求発行部12は、そのコマンドを含む対話コマンド要求を、ユーザプログラム2のアプリケーション制御部22へ送信する。これによって、アプリケーション制御部22は、アプリケーションに対して「22時」を設定する。この設定は、ディスプレイに表示されたアプリケーションにも明示される。
図7は、図4のS3における端末の表示画面である。
対話シナリオ進行部11は、対話状態遷移を更新し、次の対話ノードには、アラームの繰り返しを尋ねる文(質問文)に基づくコマンドが含まれているとする。対話シナリオ進行部11は、対話コマンド要求発行部12へ、質問文「リピートしますか?」に基づくコマンドを出力し、対話コマンド要求発行部12は、そのコマンドを含む対話コマンド要求を、ユーザプログラム2のエージェント部21へ送信する。エージェント部21は、その対話コマンド要求のコマンドに対応する質問文を、音声合成によってスピーカから発声する。
(S3) システム :声「リピートしますか?」
しかしながら、ユーザは、ディスプレイに表示されたアラーム設定「22時」を見て、音声認識で誤ったことを知る。そこで、ユーザは、タッチパネルディスプレイに対する「ユーザ操作」によって、「12時」に変更したとする。
(S31)(ユーザ):※操作によって「12時」に設定する
この操作を検知したアプリケーション制御部22は、対話コマンド応答受付部13へ、コマンド[ALARM_SETTIME_START->|12:00|]を含む対話コマンド応答を送信する。対話コマンド応答受付部13は、そのコマンドを対話シナリオ進行部11へ出力する。対話シナリオ進行部11は、ユーザがアラームを「12時」に設定したと判断し、次の対話ノードへ進行する。
このように、本発明によれば、音声認識に失敗した場合であっても、アプリケーションい対するユーザ操作(例えばタッチ操作)に切り替えたとしても、対話シナリオを進行させることができる。
更に、ユーザは、タッチパネルディスプレイに対する「ユーザ操作」によって、「毎日」に変更したとする。
(S32)(ユーザ):※操作によって「毎日」に設定する
この操作を検知したアプリケーション制御部22は、対話プログラム1の対話コマンド応答受付部13へ、コマンド[ALARM_SETREPEAT_START | everyday]を送信する。対話コマンド応答受付部13は、そのコマンドを対話シナリオ進行部11へ出力する。対話シナリオ進行部11は、ユーザがアラームの繰り返しを「毎日」に設定したと判断し、次の対話ノードへ進行する。
図8は、図4のS4における端末の表示画面である。
対話シナリオ進行部11は、対話状態遷移を更新し、次の対話ノードには、アラーム音を尋ねる文(質問文)に基づくコマンドが含まれているとする。対話シナリオ進行部11は、対話コマンド要求発行部12へ、質問文「アラーム音は何にしますか?」に基づくコマンドを出力し、対話コマンド要求発行部12は、そのコマンドを含む対話コマンド要求を、ユーザプログラム2のエージェント部21へ送信する。エージェント部21は、その対話コマンド要求のコマンドに対応する質問文を、音声合成によってスピーカから発声する。
(S4) システム:声「アラーム音は何にしますか?」
ユーザ: 声「今までと同じ」
これに対し、ユーザが、声で「今までと同じ」と発声したとする。この声は、マイクによって取得され、エージェント部21へ出力される。エージェント部21は、音声認識及び意味解析によって回答文を認識し、その回答文に基づくコマンド[UNDERSTAND_ALARM_MUSIC | crruntsetting]を含む対話コマンド応答を、対話コマンド応答受付部13へ送信する。ここで、対話コマンド応答受付部13は、対話コマンド応答に含まれるコマンドを、対話シナリオ進行部11へ通知する。対話シナリオ進行部11は、ユーザがアラーム音を「今までと同じ」に設定したと判断し、次の対話ノードへ進行する。
以上、詳細に説明したように、本発明の対話プログラム、装置、サーバ及び方法によれば、対話シナリオの進行の中で、既存のアプリケーションに対するユーザの操作を、ユーザの回答として認識することができる。即ち、アプリケーションに対するユーザの操作であっても、音声対話のシナリオを進行させることができる。
尚、本発明は、ユーザ操作に基づく端末のディスプレイに「キャラクタエージェント」を表示し、ユーザとエージェントとが音声による対話を進める、音声対話システムに適する。勿論、本発明は、音声対話に限定されるものではなく、テキスト対話であってもよい。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 対話プログラム
10 対話シナリオ蓄積部
11 対話シナリオ進行部
12 対話コマンド要求発行部
13 対話コマンド応答受付部
2 ユーザプログラム
21 エージェント部
22 アプリケーション制御部

Claims (5)

  1. ユーザと対話的にシナリオを進行するようにコンピュータを機能させる対話プログラムであって、
    ユーザへ明示すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積手段と、
    前記対話シナリオ蓄積手段を用いて、対話ノードを遷移しながらシナリオを進行する対話シナリオ進行手段と、
    前記対話シナリオ進行手段によって、対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を発行する対話コマンド要求発行手段と、
    前記対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受け付ける対話コマンド応答受付手段と
    してコンピュータを機能させ、
    前記対話シナリオ進行手段は、ユーザによって回答された文、又は、前記対話コマンド応答のユーザ操作内容、に基づいて対話的にシナリオを進行する
    ようにコンピュータを機能させることを特徴とする対話プログラム。
  2. 前記対話コマンド要求発行手段は、前記対話シナリオ進行手段によって、実行された対話ノードに対応付けられた文を含む対話コマンド要求を発行し、
    前記対話コマンド応答受付手段は、ユーザによって回答された文を含む対話コマンド応答を受け付ける
    ようにコンピュータを更に機能させることを特徴とする請求項1に記載の対話プログラム。
  3. ユーザ操作に基づく端末と通信し、該端末を通じてユーザと対話的にシナリオを進行する装置であって、
    前記端末へ送信すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積手段と、
    前記対話シナリオ蓄積手段を用いて、対話ノードを遷移しながらシナリオを進行する対話シナリオ進行手段と、
    前記対話シナリオ進行手段によって、対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を前記端末へ送信する対話コマンド要求発行手段と、
    前記対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受信する対話コマンド応答受付手段と、
    キャラクタエージェントをディスプレイに表示すると共に、前記対話シナリオ進行手段によって進行中の対話ノードに対応付けられた文を明示し、ユーザから取得した文を前記対話シナリオ進行手段へ通知するエージェント手段と、
    前記対話コマンド要求発行手段から発行された前記対話コマンド要求に応じたアプリケーションへ指示し、ユーザ操作内容を表す対応コマンド応答を前記対話コマンド応答受付手段へ通知するアプリケーション制御手段と
    を有し、
    前記対話シナリオ進行手段は、前記端末から受信した、ユーザによって回答された文、又は、前記対話コマンド応答のユーザ操作内容に基づいて、対話的にシナリオを進行する
    ことを特徴とする装置。
  4. ユーザ操作に基づく端末と通信し、該端末を通じてユーザと対話的にシナリオを進行する対話サーバであって、
    前記端末へ送信すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積手段と、
    前記対話シナリオ蓄積手段を用いて、対話ノードを遷移しながらシナリオを進行する対話シナリオ進行手段と、
    前記対話シナリオ進行手段によって、対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を前記端末へ送信する対話コマンド要求発行手段と、
    前記対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受信する対話コマンド応答受付手段と
    を有し、
    前記対話シナリオ進行手段は、前記端末から受信した、ユーザによって回答された文、又は、前記対話コマンド応答のユーザ操作内容に基づいて、対話的にシナリオを進行する
    ことを特徴とする対話サーバ。
  5. ユーザ操作に基づく端末と、該端末を通じてユーザと対話的にシナリオを進行する対話サーバとを有するシステムにおける対話方法であって、
    前記対話サーバは、前記端末へ送信すべき文を対応付けた複数の対話ノードを蓄積し、一部の対話ノードには、ユーザ操作を要するアプリケーションへ指示する対話コマンド要求が対応付けられている対話シナリオ蓄積部を有し、
    前記対話サーバは、
    前記対話シナリオ蓄積部を用いて、対話ノードを遷移しながらシナリオを進行する中で、
    対話コマンド要求が対応付けられた対話ノードが実行された際、当該対話コマンド要求を前記端末へ送信する第1のステップと、
    前記対話コマンド要求を指示された当該アプリケーションから、ユーザ操作内容を表す対話コマンド応答を受信する第2のステップと、
    前記端末から受信した、ユーザによって回答された文、又は、前記対話コマンド応答のユーザ操作内容に基づいて、対話的にシナリオを進行する第3のステップと
    を有することを特徴とする対話方法。
JP2013068523A 2013-03-28 2013-03-28 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法 Active JP6115941B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013068523A JP6115941B2 (ja) 2013-03-28 2013-03-28 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013068523A JP6115941B2 (ja) 2013-03-28 2013-03-28 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法

Publications (2)

Publication Number Publication Date
JP2014191272A JP2014191272A (ja) 2014-10-06
JP6115941B2 true JP6115941B2 (ja) 2017-04-19

Family

ID=51837540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013068523A Active JP6115941B2 (ja) 2013-03-28 2013-03-28 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法

Country Status (1)

Country Link
JP (1) JP6115941B2 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
KR101777392B1 (ko) 2016-07-04 2017-09-11 주식회사 케이티 중앙 서버 및 이에 의한 사용자 음성 처리 방법
US10726836B2 (en) 2016-08-12 2020-07-28 Kt Corporation Providing audio and video feedback with character based on voice command
KR101889278B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 공용 단말 및 방법, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR101889279B1 (ko) 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11017037B2 (en) * 2017-07-03 2021-05-25 Google Llc Obtaining responsive information from multiple corpora
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
JP2001056694A (ja) * 1999-08-19 2001-02-27 Denso Corp 対話型ユーザインタフェース装置
JP3674453B2 (ja) * 2000-04-14 2005-07-20 株式会社デンソー 対話型ユーザインターフェース装置
JP3423296B2 (ja) * 2001-06-18 2003-07-07 沖電気工業株式会社 音声対話インターフェース装置
JP4174233B2 (ja) * 2002-04-24 2008-10-29 株式会社日立製作所 音声対話システム及び音声対話方法
JP2006099424A (ja) * 2004-09-29 2006-04-13 Hitachi Ltd 音声情報サービスシステム及び音声情報サービス端末
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
US9082408B2 (en) * 2011-06-13 2015-07-14 Mmodal Ip Llc Speech recognition using loosely coupled components

Also Published As

Publication number Publication date
JP2014191272A (ja) 2014-10-06

Similar Documents

Publication Publication Date Title
JP6115941B2 (ja) 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法
KR101237622B1 (ko) 분산된 멀티모드 애플리케이션을 구현하기 위한 방법 및 장치
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
US10152965B2 (en) Learning personalized entity pronunciations
US9613623B2 (en) User interface method and device comprising repeated output of an audible signal and a visual display and vibration for user notification
CN107004411B (zh) 话音应用架构
US11183188B2 (en) Voice assistant-enabled web application or web page
EP2973543B1 (en) Providing content on multiple devices
US9842584B1 (en) Providing content on multiple devices
US9218052B2 (en) Framework for voice controlling applications
US9087520B1 (en) Altering audio based on non-speech commands
US20150039316A1 (en) Systems and methods for managing dialog context in speech systems
WO2018125717A1 (en) Audio message extraction
KR20160039244A (ko) 인식된 음성 개시 액션에 대한 시각적 확인
JP2012237997A (ja) 単語レベルの変換候補生成に基づく音声認識システム及び方法
JP2014106523A (ja) 音声入力対応装置及び音声入力対応プログラム
AU2019201441B2 (en) Electronic device for processing user voice input
JP2011059676A (ja) 発話入力に基づいて複数の機能を有効にするためのシステム及び方法
WO2019176670A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN103428339A (zh) 通过语音输入控制手机进行操作的方法
CN111816168A (zh) 一种模型训练的方法、语音播放的方法、装置及存储介质
KR102063389B1 (ko) 인공지능 기반의 캐릭터 표시 장치 및 그 표시 방법
JP2019056913A (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
US9613311B2 (en) Receiving voice/speech, replacing elements including characters, and determining additional elements by pronouncing a first element
CN112823047A (zh) 用于控制网络应用程序的***和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170315

R150 Certificate of patent or registration of utility model

Ref document number: 6115941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150