JPWO2020049826A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JPWO2020049826A1
JPWO2020049826A1 JP2020541024A JP2020541024A JPWO2020049826A1 JP WO2020049826 A1 JPWO2020049826 A1 JP WO2020049826A1 JP 2020541024 A JP2020541024 A JP 2020541024A JP 2020541024 A JP2020541024 A JP 2020541024A JP WO2020049826 A1 JPWO2020049826 A1 JP WO2020049826A1
Authority
JP
Japan
Prior art keywords
content
information
user input
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020541024A
Other languages
English (en)
Inventor
田中 彰
彰 田中
充弘 小形
充弘 小形
昇悟 池田
昇悟 池田
広樹 石塚
広樹 石塚
翔 七尾
翔 七尾
誠 村▲崎▼
誠 村▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JPWO2020049826A1 publication Critical patent/JPWO2020049826A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

情報処理装置は、コンテンツに関するコンテンツ情報を取得する取得部と、コンテンツを処理するアプリケーションに対する自然言語によるユーザ入力をコンテンツ情報に基づいて解釈する解釈部とを備える。

Description

本発明は、情報処理装置に関する。
ユーザが発する音声コマンド等の音声入力を解釈して、音声で指示された処理を実行する音声エージェント機能を含む情報処理装置が知られている。例えば、簡略化された音声コマンドの使用を可能にする音声入力処理装置が提案されている(例えば、特許文献1)。この種の音声入力処理装置は、例えば、簡略化された音声コマンドを受信した場合、音声コマンドの内容の少なくとも一部と動作内容とを関連付けた動作情報の履歴である動作履歴を参照して、各種制御のための所定のコマンドを発行する。
特開2017−146437号公報
しかし、多義的な指示がユーザから発せられた場合、動作履歴を参照してもユーザの指示を特定できない場合がある。このため、従来の音声エージェント機能を採用した情報処理装置では、ユーザから多義的な指示を受けた場合、ユーザの意図する処理を実行できない場合がある。したがって、従来の音声エージェント機能等を採用した情報処理装置の使い勝手は必ずしもよいとはいえない。
以上の課題を解決するために、本発明の好適な態様に係る情報処理装置は、コンテンツに関するコンテンツ情報を取得する取得部と、前記コンテンツを処理するアプリケーションに対する自然言語によるユーザ入力を前記コンテンツ情報に基づいて解釈する解釈部と、を備える。
本発明によれば、情報処理装置の使い勝手を向上させることができる。
本発明の第1実施形態に係る情報処理装置の全体構成を示すブロック図である。 コンテンツ情報の一例を示す説明図である。 ユーザ入力の解釈が一意に特定される場合の一例を示す説明図である。 ユーザ入力の解釈が一意に特定される場合の別の例を示す説明図である。 ユーザ入力の解釈が一意に特定されない場合の一例を示す説明図である。 図1に示した情報処理装置の動作の一例を示すフローチャートである。 本発明の第2実施形態に係る情報処理装置の全体構成を示すブロック図である。 図7に示した情報処理装置の動作の一例を示す説明図である。 本発明の第3実施形態に係る情報処理装置の全体構成を示すブロック図である。 コンテンツ情報と応答情報の出力態様との関係の一例を示す説明図である。 図9に示した情報処理装置の動作の一例を示すフローチャートである。
[1.第1実施形態]
図1は、本発明の第1実施形態に係る情報処理装置10の全体構成を示すブロック図である。以下の説明では、情報処理装置10としてスマートフォンを想定する。但し、情報処理装置10としては、任意の可搬型の情報処理装置を採用することができ、例えば、ノートパソコン、ウェアラブル端末及びタブレット端末等であってもよい。
図1に例示するように、情報処理装置10は、処理装置100、記憶装置140、入力装置150、出力装置160及び通信装置170を具備するコンピュータシステムにより実現される。情報処理装置10の複数の要素は、単体又は複数のバスで相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、情報処理装置10の複数の要素の各々を、単数又は複数の機器が構成してもよい。あるいは、情報処理装置10の一部の要素は省略されてもよい。
処理装置100は、情報処理装置10の全体を制御するプロセッサであり、例えば単数又は複数のチップで構成される。処理装置100は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置100の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、及び、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置100は、各種の処理を並列的又は逐次的に実行する。
処理装置100は、例えば、記憶装置140から制御プログラムPRを読み出して実行することによって、エージェント部110として機能する。エージェント部110は、自然言語によるユーザの入力であるユーザ入力を解釈して、ユーザ入力に応じた処理を実行する。ユーザ入力は、例えば、自然言語によるユーザからの指示又は質問等である。なお、ユーザ入力の方法(自然言語によるユーザの入力の方法)は、情報処理装置10がユーザ入力の内容をテキスト等に変換して解釈できればよく、特に限定されない。例えば、ユーザ入力の方法は、音声及びテキスト等による入力が該当する。
なお、図1のエージェント部110内に示した取得部112、解釈部114、制御コマンド発行部116及び応答情報生成部118は、エージェント部110の機能ブロックの一例である。すなわち、情報処理装置10は、取得部112、解釈部114、制御コマンド発行部116及び応答情報生成部118を有する。
取得部112は、コンテンツに関するコンテンツ情報を取得する。例えば、取得部112は、ユーザ入力を受け付ける状態にあるアプリケーションが処理しているコンテンツに関するコンテンツ情報を取得する。以下では、ユーザ入力を受け付ける状態にあるアプリケーションが処理しているコンテンツは、有効なコンテンツとも称される。例えば、取得部112は、情報処理装置10が実行しているアプリケーションを特定し、アプリケーションの名称又はアプリケーションが処理しているファイル等に基づいて、有効なコンテンツを特定する。そして、取得部112は、有効なコンテンツに関するコンテンツ情報を取得する。
例えば、取得部112は、ユーザが情報処理装置10を用いて映画を視聴している場合、映画を有効なコンテンツとして特定する。また、例えば、取得部112は、ユーザが情報処理装置10を用いてメールの送信文を作成している場合、メールを有効なコンテンツとして特定する。そして、取得部112は、有効なコンテンツに関するコンテンツ情報を取得する。本明細書では、ユーザがメールを参照するため、メールをコンテンツの一種としている。コンテンツ情報は、コンテンツの種類に応じて定められた一又は複数のパラメータを有する。例えば、取得部112は、有効なコンテンツがTV(television)番組の場合、TV番組のタイトル(番組情報)を含む複数のパラメータを取得する。なお、コンテンツ情報の一例は、図2において説明する。
解釈部114は、有効なコンテンツを処理するアプリケーションに対するユーザ入力をコンテンツ情報に基づいて解釈する。例えば、解釈部114は、コンテンツ情報に含まれるパラメータに基づいて、ユーザ入力の内容を解釈する。例えば、有効なコンテンツがTV番組であり、TV番組に関する複数のパラメータのうちの1つであるタイトルが野球中継を示す場合、ユーザが「他の試合は?」と尋ねると、解釈部114は、ユーザ入力である「他の試合は?」を、他の野球の試合結果の検索又は他の野球の途中経過の検索と解釈する。
制御コマンド発行部116は、ユーザ入力に応じた制御コマンドを、ユーザ入力の解釈部114による解釈結果に基づいて発行する。例えば、ユーザ入力である「他の試合は?」が他の野球の試合結果の検索又は他の野球の途中経過の検索と解釈部114により解釈された場合、制御コマンド発行部116は、データ放送に含まれる情報等から他の野球の試合結果又は他の野球の途中経過を検索する制御コマンドを発行する。他の野球の試合結果又は他の野球の途中経過を検索する制御コマンドの発行により、他の野球の試合結果又は他の野球の途中経過が検索され、検索結果が応答情報生成部118に取得される。
応答情報生成部118は、ユーザ入力に対する応答情報を、ユーザ入力の解釈部114による解釈結果に基づいて生成する。ユーザ入力に対する応答情報は、例えば、ユーザからの指示を受け付けたことを示す情報、ユーザからの指示に対する処理の実行結果を示す情報及びユーザの質問に対する回答を示す情報等である。例えば、ユーザ入力である「他の試合は?」が他の野球の試合結果の検索又は他の野球の途中経過の検索と解釈部114により解釈された場合、応答情報生成部118は、他の野球の試合結果の検索結果又は他の野球の途中経過の検索結果を示す応答情報を生成する。この結果、例えば、応答情報に基づいて、他の野球の試合結果又は他の野球の途中経過が、後述するディスプレイ162にテキストで表示される。
また、応答情報生成部118は、ユーザ入力の解釈部114による解釈結果が複数の解釈を含む場合、複数の解釈のうちのいずれがユーザ入力の内容に当てはまる解釈かを確認する応答情報を生成する。すなわち、応答情報生成部118は、ユーザ入力の解釈が一意に特定されない場合、ユーザ入力の内容をユーザに尋ねる応答情報を生成する。ユーザ入力の解釈が一意に特定されない場合の例は、図5において説明する。
記憶装置140は、処理装置100が読取可能な記録媒体であり、処理装置100が実行する制御プログラムPRを含む複数のプログラム、及び処理装置100が使用する各種のデータを記憶する。記憶装置140は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、及びRAM(Random Access Memory)等の少なくとも1つによって構成されてもよい。
入力装置150は、外部からの入力を受け付ける入力デバイスである。例えば、入力装置150は、音声入力操作を受け付けるマイクロフォン152とユーザによる操作を受け付ける操作部154とを有する。入力装置150は、マイクロフォン152又は操作部154等において受け付けたユーザ入力をエージェント部110に転送する。
マイクロフォン152は、例えば、ユーザからの指示又は質問等のユーザの入力を音声で受け付ける。操作部154は、情報処理装置10が使用する情報を処理装置100に入力するための機器(例えば、キーボード、マウス、スイッチ及びボタン等)であり、ユーザからの指示又は質問等のユーザの入力を受け付ける。具体的には、操作部154は、数字及び文字等の符号を処理装置100に入力するための操作と、ディスプレイ162が表示するアイコンを選択するための操作とを受け付ける。例えば、ディスプレイ162の表示面に対する接触を検出するタッチパネルが操作部154として好適である。なお、ユーザが操作可能な複数の操作子を操作部154が含んでもよい。また、入力装置150は、情報処理装置10自体の動き等を検出するセンサを含んでもよい。
出力装置160は、外部への出力を実施する出力デバイスである。例えば、出力装置160は、ディスプレイ162、スピーカー164及び発光部166を有する。ディスプレイ162は、表示装置の一例であり、処理装置100による制御のもとで各種の画像を表示する。例えば、ディスプレイ162は、応答情報を示すテキスト又はアイコン等の画像を表示する。なお、ディスプレイ162として、例えば、液晶表示パネル及び有機EL(Electro Luminescence)表示パネル等の各種の表示パネルが好適に利用される。
スピーカー164は、処理装置100による制御のもとで各種の音を出力する。例えば、スピーカー164は、応答情報を示す音声又は音楽等の音を出力する。
発光部166は、例えば、LED(Light Emitting Diode)等の発光素子を有し、処理装置100による制御のもとで各種の光を発する。例えば、処理装置100は、応答情報の内容に応じて発光部166を点灯又は点滅させる。
通信装置170は、移動体通信網又はインターネット等のネットワークを介して他の装置と通信する機器である。通信装置170は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード又は通信モジュールとも表記される。次に、図2を参照して、コンテンツ情報の一例を説明する。
図2は、コンテンツ情報の一例を示す説明図である。コンテンツ情報は、例えば、コンテンツの種類と、コンテンツの種類に応じて定められた一又は複数のパラメータとを有する。図2に示す例では、コンテンツの種類に応じて複数のパラメータが定められている。ユーザ入力の内容の解釈に複数のパラメータを用いることにより、1つのパラメータを用いる場合に比べて、多義的な指示がユーザから発せられた場合でも、ユーザの指示を効率よく特定することができる。
コンテンツの種類が映画又はTV番組である場合、パラメータは、例えば、映画又はTV番組のタイトル、字幕の有無、ウインドウサイズ、音声のミュートの有無及びイヤホンの接続の有無等をそれぞれ示す情報である。例えば、字幕の有無を示すパラメータは、第1の値(例えば、値“1”)が設定されている場合、字幕があることを示し、第1の値と異なる第2の値(例えば、値“0”)が設定されている場合、字幕がないことを示す。また、ウインドウサイズは、例えば、映画又はTV番組を表示しているウインドウが全画面表示か縮小表示かを示す。
コンテンツの種類が音楽である場合、パラメータは、例えば、曲のタイトル、歌詞の表示の有無、ウインドウサイズ及びイヤホンの接続の有無等をそれぞれ示す情報である。ウインドウサイズは、例えば、音楽の再生等を操作する操作ボタン等を表示しているウインドウが全画面表示か縮小表示かを示す。
コンテンツの種類がメールである場合、パラメータは、例えば、アクティブ状態のウインドウの種類、ウインドウサイズ、音声のミュートの有無及びイヤホンの接続の有無等をそれぞれ示す情報である。アクティブ状態のウインドウの種類は、例えば、受信メールの一覧画面、受信メールの表示画面及び送信メールの作成画面等である。また、ウインドウサイズは、例えば、アクティブ状態のウインドウが全画面表示か縮小表示かを示す。
コンテンツの種類が地図である場合、パラメータは、例えば、地図の表示倍率、ウインドウサイズ、音声のミュートの有無及びイヤホンの接続の有無等をそれぞれ示す情報である。ウインドウサイズは、例えば、地図を表示しているウインドウが全画面表示か縮小表示かを示す。
コンテンツの種類が戦闘ゲーム等のアクションゲームである場合、パラメータは、例えば、ゲームのタイトル、ゲームの画面の種類、ウインドウサイズ、音声のミュートの有無及びイヤホンの接続の有無等をそれぞれ示す情報である。ゲームの画面の種類は、例えば、格闘中の場面、アイテムを選択する場面及びゲーム結果を表示する画面等である。ウインドウサイズは、例えば、ゲームを表示しているウインドウが全画面表示か縮小表示かを示す。
コンテンツの種類が音楽ゲームである場合、パラメータは、例えば、ゲームのタイトル、ウインドウサイズ及びイヤホンの接続の有無等をそれぞれ示す情報である。ウインドウサイズは、例えば、ゲームを表示しているウインドウが全画面表示か縮小表示かを示す。
なお、コンテンツの種類及びコンテンツの種類に応じて定められたパラメータ等は、図2に示す例に限定されない。例えば、コンテンツの種類が音楽である場合、パラメータは、イヤホンの接続の有無を示す1つの情報でもよい。すなわち、コンテンツ情報に含まれるパラメータは、1つでもよい。
図3は、ユーザ入力の解釈が一意に特定される場合の一例を示す説明図である。なお、図3は、ユーザが情報処理装置10を用いて映画を視聴している最中に「大きくして」と音声で指示した場合の情報処理装置10の動作の一例を示す。有効なコンテンツが映画の場合、ユーザ入力である「大きくして」は、画面を大きくすることと、音量を大きくすることとの2通りの意味を有する。図3に示す例では、映画に関するコンテンツ情報に含まれるパラメータが音声のミュート、イヤホンの未接続及び縮小表示等を示していると仮定する。このため、図3に示す例では、解釈部114は、ユーザ入力である「大きくして」を、画面を大きくすることと一意に解釈する。
例えば、取得部112は、ユーザが情報処理装置10を用いて映画を視聴しているため、映画を有効なコンテンツとして特定し、映画のタイトル等を含む複数のパラメータ(例えば、図2に示したパラメータ)を取得する。そして、解釈部114は、取得部112が取得したパラメータ等に基づいて、ユーザ入力である「大きくして」を、画面を大きくすることと一意に解釈する。
解釈部114の解釈結果が画面を大きくすることであるため、応答情報生成部118は、画面を大きくすることを示す応答情報を、ユーザ入力に対する応答情報として生成する。この結果、例えば、「全画面にします」と記載されたテキストがディスプレイ162に表示される。
また、制御コマンド発行部116は、解釈部114の解釈結果が画面を大きくすることであるため、映画を全画面で表示する制御コマンドを発行する。この結果、ディスプレイ162の全画面に映画が表示される。
なお、所定の言葉で情報処理装置10に呼びかけた後に指示等をユーザが発声するようにしてもよい。例えば、情報処理装置10の入力装置150は、所定の言葉の呼びかけの後に続く音声をユーザ入力として受け付けてもよい。この場合、情報処理装置10は、ユーザが発した言葉が情報処理装置10に対する入力であるか否かを、所定の言葉の呼びかけの有無を検出することにより容易に判別できる。
また、ユーザ入力は、音声入力に限定されず、例えば、テキストであってもよい。例えば、ユーザが映画の視聴中に「渋谷に行きたい」と操作部154を介してテキストで入力すると、情報処理装置10は、現在位置から渋谷までの経路を検索し、検索結果をテキストでディスプレイ162に表示してもよい。図4以降においても、ユーザ入力が音声である場合を例にして情報処理装置10の動作を説明しているが、ユーザ入力は音声入力に限定されない。
図4は、ユーザ入力の解釈が一意に特定される場合の別の例を示す説明図である。なお、図4は、ユーザが情報処理装置10を用いて映画を視聴している最中に「大きくして」と音声で指示した場合の情報処理装置10の動作の一例を示す。図4に示す例では、映画に関するコンテンツ情報に含まれるパラメータが音声の出力(ミュート無し)、イヤホンの接続及び全画面表示を示していると仮定する。このため、図4に示す例では、解釈部114は、ユーザ入力である「大きくして」を、音量を大きくすることと一意に解釈する。
例えば、取得部112は、ユーザが情報処理装置10を用いて映画を視聴しているため、映画を有効なコンテンツとして特定し、映画のタイトル等を含む複数のパラメータ(例えば、図2に示したパラメータ)を取得する。そして、解釈部114は、取得部112が取得したパラメータ等に基づいて、ユーザ入力である「大きくして」を、音量を大きくすることと一意に解釈する。
解釈部114の解釈結果が音量を大きくすることであるため、応答情報生成部118は、音量を大きくすることを示す応答情報を、ユーザ入力に対する応答情報として生成する。この結果、例えば、「音量を大きくします」と記載されたテキストがディスプレイ162に表示される。
また、制御コマンド発行部116は、解釈部114の解釈結果が音量を大きくすることであるため、音量を大きくする制御コマンドを発行する。この結果、情報処理装置10が再生している映画の音量が、大きくなる。
なお、ユーザ入力の解釈が一意に特定される場合の応答情報は、図3及び図4に示した例に限定されない。例えば、情報処理装置10は、ユーザ入力に対する応答として、「承知しました」と記載したテキストをディスプレイ162に表示してもよい。
図3及び図4において説明したように、ユーザ入力の内容が複数の意味を有する場合でも、情報処理装置10は、有効なコンテンツに関するコンテンツ情報に基づいて、ユーザ入力の解釈を一意に特定できる。このため、情報処理装置10の使い勝手を向上させることができる。なお、有効なコンテンツに関するコンテンツ情報を参照しても、ユーザ入力の解釈を一意に特定することができない場合の例は、図5において説明する。
図5は、ユーザ入力の解釈が一意に特定されない場合の一例を示す説明図である。なお、図5は、ユーザが情報処理装置10を用いて映画を視聴している最中に「大きくして」と音声で指示した場合の情報処理装置10の動作の一例を示す。図5に示す例では、映画に関するコンテンツ情報に含まれるパラメータが音声の出力(ミュート無し)、イヤホンの接続及び縮小表示を示していると仮定する。このため、図5に示す例では、解釈部114は、ユーザ入力である「大きくして」を、画面を大きくすること又は音量を大きくすることと多義的に解釈する。
例えば、取得部112は、ユーザが情報処理装置10を用いて映画を視聴しているため、映画を有効なコンテンツとして特定し、映画のタイトル等を含む複数のパラメータ(例えば、図2に示したパラメータ)を取得する。そして、解釈部114は、取得部112が取得したパラメータ等に基づいて、ユーザ入力である「大きくして」を、画面を大きくすること又は音量を大きくすることと多義的に解釈する。
ユーザ入力である「大きくして」の解釈部114による解釈が複数の解釈(画面を大きくすること及び音量を大きくすること)を含むため、応答情報生成部118は、複数の解釈のうちのいずれがユーザ入力の内容に当てはまる解釈かをユーザに尋ねる応答情報を生成する。例えば、応答情報生成部118は、「大きくするのは画面ですか?音量ですか?」等のユーザ入力の内容を特定するための応答情報を生成する。この結果、「大きくするのは画面ですか?音量ですか?」と記載されたテキストがディスプレイ162に表示される。
図5に示す例では、ユーザは、「大きくするのは画面ですか?音量ですか?」の問いに対して「画面」と音声で指示している。このため、解釈部114は、最初のユーザ入力である「大きくして」を、画面を大きくすることと一意に解釈する。そして、応答情報生成部118は、ユーザの指示を実行することを示す応答情報を生成する。また、制御コマンド発行部116は、映画を全画面で表示する制御コマンドを発行する。この結果、例えば、「承知しました」と記載されたテキストがディスプレイ162に表示され、ディスプレイ162の全画面に映画が表示される。
ユーザ入力の解釈部114による解釈が複数の解釈を含む場合でも、情報処理装置10は、複数の解釈のうちのいずれがユーザ入力の内容に当てはまる解釈かをユーザに尋ねる応答情報を用いて、ユーザ入力の解釈を特定できる。このため、情報処理装置10の使い勝手を向上させることができる。
図6は、図1に示した情報処理装置の動作の一例を示すフローチャートである。なお、図6に示す動作は、情報処理装置10の制御方法の一例である。
ステップS100では、処理装置100は、ユーザ入力があるか否かを判定する。例えば、処理装置100は、入力装置150がユーザ入力を受け付けたか否かを判定する。ユーザ入力がある場合、すなわち、入力装置150がユーザ入力を受け付けた場合、情報処理装置10の動作は、ステップS110に移る。一方、ユーザ入力がない場合、すなわち、入力装置150がユーザ入力を受け付けていない場合、情報処理装置10の動作は、ステップS100に戻る。
すなわち、情報処理装置10は、入力装置150がユーザ入力を受け付けるまで、ステップS110の処理の実行を待機する。換言すれば、情報処理装置10は、入力装置150がユーザ入力(例えば、図3、図4及び図5の「大きくして」等の音声入力)を受け付けると、ステップS110の処理を実行する。
ステップS110では、処理装置100は、取得部112として機能し、有効なコンテンツを特定する。図3から図5に示した例では、ユーザが情報処理装置10を用いて映画を視聴しているため、取得部112は、映画を有効なコンテンツとして特定する。なお、例えば、ユーザが情報処理装置10を用いてメールを見ている場合、メールが有効なコンテンツとして特定され、ユーザが情報処理装置10を用いて地図を見ている場合、地図が有効なコンテンツとして特定される。また、例えば、ユーザが情報処理装置10を用いてアクションゲームをしている場合、アクションゲームが有効なコンテンツとして特定され、ユーザが情報処理装置10を用いて音楽ゲームをしている場合、音楽ゲームが有効なコンテンツとして特定される。
次に、ステップS120では、処理装置100は、取得部112として機能し、有効なコンテンツの状態を示す一又は複数のパラメータを含むコンテンツ情報を取得する。例えば、ステップS110において特定された有効なコンテンツが映画である場合、取得部112は、映画のタイトル、字幕の有無、ウインドウサイズ、音声のミュートの有無及びイヤホンの接続の有無等をそれぞれ示すパラメータを、コンテンツ情報に含めるパラメータとして取得する。
次に、ステップS130では、処理装置100は、解釈部114として機能し、ユーザ入力の内容をステップS120において取得したコンテンツ情報に基づいて解釈する。図3に示した例では、解釈部114は、ユーザ入力である「大きくして」を、画面を大きくすることとコンテンツ情報に含まれるパラメータ等に基づいて一意に解釈する。また、図4に示した例では、解釈部114は、ユーザ入力である「大きくして」を、音量を大きくすることとコンテンツ情報に含まれるパラメータ等に基づいて一意に解釈する。また、図5に示した例では、解釈部114は、ユーザ入力である「大きくして」を、画面を大きくすること又は音量を大きくすることとコンテンツ情報に含まれるパラメータ等に基づいて多義的に解釈する。
次に、ステップS140では、処理装置100は、応答情報生成部118として機能し、ステップS130において解釈したユーザ入力の内容が多義的か否かを判定する。例えば、応答情報生成部118は、ユーザ入力の解釈部114による解釈結果が複数の解釈を含むか否かを判定する。
図3及び図4に示した例では、ユーザ入力の解釈部114による解釈結果は1つの解釈を示すため、ユーザ入力の内容は一意に特定される。したがって、図3及び図4に示した例では、応答情報生成部118は、ユーザ入力の内容は多義的でないと判定する。また、図5に示した例では、ユーザ入力の解釈部114による解釈結果は複数の解釈を含むため、ユーザ入力の内容は一意に特定されない。したがって、図5に示した例では、応答情報生成部118は、ユーザ入力の内容は多義的であると判定する。
なお、ステップS130において解釈したユーザ入力の内容が多義的か否かの判定は、応答情報生成部118以外の機能ブロックにより実行されてもよい。例えば、解釈部114がステップS130において解釈したユーザ入力の内容が多義的か否かを判定してもよい。ユーザ入力の内容が多義的である場合、すなわち、ユーザ入力の解釈部114による解釈結果が複数の解釈を含む場合、情報処理装置10の動作は、ステップS142に移る。一方、ユーザ入力の内容が多義的でない場合、すなわち、ユーザ入力の内容が一意に特定される場合、情報処理装置10の動作は、ステップS150に移る。
ステップS142では、処理装置100は、応答情報生成部118として機能し、ユーザ入力の内容をユーザに尋ねる応答情報をステップS130の解釈結果に基づいて生成する。そして、情報処理装置10は、生成した応答情報を出力する。図5に示した例では、応答情報生成部118は、ユーザ入力である「大きくして」の解釈結果(画面を大きくすること及び音量を大きくすることの2通りの解釈)に基づいて、「大きくするのは画面ですか?音量ですか?」等のユーザ入力の内容をユーザに尋ねる応答情報を生成する。そして、情報処理装置10は、「大きくするのは画面ですか?音量ですか?」と記載したテキストをディスプレイ162に表示する。
次に、ステップS144では、処理装置100は、解釈部114として機能し、ユーザ入力の内容の解釈をステップS142で出力した応答情報に対する回答に基づいて決定する。図5に示した例では、解釈部114は、「大きくするのは画面ですか?音量ですか?」の問いに対して、「画面」との回答をユーザから受けたため、最初のユーザ入力である「大きくして」の内容の解釈を、画面を大きくすることに決定する。ステップS144の処理が実行された後、情報処理装置10の動作は、ステップS150に移る。
ステップS150では、処理装置100は、応答情報生成部118として機能し、ユーザ入力に対する応答情報を、ユーザ入力の内容の解釈結果に基づいて生成する。そして、情報処理装置10は、生成した応答情報を出力する。例えば、ステップS130において解釈したユーザ入力の内容が多義的である場合、応答情報生成部118は、ステップS144で決定したユーザ入力の内容の解釈に基づいて、応答情報を生成する。また、例えば、ステップS130において解釈したユーザ入力の内容が一意的である場合、応答情報生成部118は、ステップS130において解釈したユーザ入力の内容に応じて、応答情報を生成する。
図3に示した例では、ユーザ入力である「大きくして」が画面を大きくすることに一意に解釈されるため、応答情報生成部118は、画面を大きくすることを示す応答情報を、ユーザ入力に対する応答情報として生成する。そして、情報処理装置10は、生成した応答情報に基づいて、「全画面にします」と記載したテキストをディスプレイ162に表示する。また、図4に示した例では、ユーザ入力である「大きくして」が音量を大きくすることに一意に解釈されるため、応答情報生成部118は、音量を大きくすることを示す応答情報を、ユーザ入力に対する応答情報として生成する。そして、情報処理装置10は、生成した応答情報に基づいて、「音量を大きくします」と記載したテキストをディスプレイ162に表示する。
図5に示した例では、ユーザ入力の内容をユーザに尋ねる応答情報に対する回答に基づいてユーザ入力である「大きくして」の解釈が画面を大きくすることに決定されたため、応答情報生成部118は、ユーザの指示を実行することを示す応答情報を生成する。そして、情報処理装置10は、生成した応答情報に基づいて、「承知しました」と記載したテキストをディスプレイ162に表示する。
次に、ステップS160では、処理装置100は、制御コマンド発行部116として機能し、ユーザ入力に応じた制御コマンドを、ユーザ入力の内容の解釈結果に基づいて生成する。図3及び図5に示した例では、ユーザ入力である「大きくして」の内容の解釈結果が画面を大きくすることであるため、制御コマンド発行部116は、映画を全画面で表示する制御コマンドを発行する。この結果、ディスプレイ162の全画面に映画が表示される。図4に示した例では、ユーザ入力である「大きくして」の内容の解釈結果が音量を大きくすることであるため、制御コマンド発行部116は、音量を大きくする制御コマンドを発行する。この結果、情報処理装置10が再生している映画の音量が、大きくなる。
次に、ステップS170では、処理装置100は、応答情報生成部118として機能し、ユーザ入力に対する応答情報を、ステップS160において発行した制御コマンドの実行結果に基づいて生成する。そして、情報処理装置10は、生成した応答情報を出力する。なお、図3、図4及び図5に示した例では、ステップS160において発行した制御コマンドの実行によりユーザ入力に対する応答は終了する。但し、ユーザ入力に対する応答の終了は、ステップS160において発行した制御コマンドの実行に限定されない。例えば、ユーザ入力の内容が目的地までのルート検索の場合、ルート検索の結果が出力されることによりユーザ入力に対する応答が終了する。
例えば、ユーザ入力の内容が目的地までのルート検索の場合、目的地までのルート検索を実行するための制御コマンドがステップS160において発行されるため、応答情報生成部118は、目的地までのルートを示す応答情報を、ルート検索の結果に基づいて生成する。そして、情報処理装置10は、目的地までのルートをテキスト及び音声の一方又は両方で出力して、ユーザ入力に対する応答を終了する。
なお、情報処理装置10の動作は、図6に示す例に限定されない。例えば、ステップS144において、ユーザ入力の内容の解釈が決定しない場合、ステップS142及びS144の一連の処理は、ユーザ入力の内容の解釈が決定するまで繰り返されてもよい。また、例えば、ステップS150及びS170の処理の一方は、ユーザ入力の内容に応じて省かれてもよい。
以上、第1実施形態では、情報処理装置10は、コンテンツに関するコンテンツ情報を取得する取得部112と、コンテンツを処理するアプリケーションに対するユーザ入力(自然言語によるユーザの入力)をコンテンツ情報に基づいて解釈する解釈部114とを有する。情報処理装置10は、有効なコンテンツに関するコンテンツ情報に基づいて、ユーザ入力の内容を解釈する。このため、例えば、多義的な指示がユーザから発せられた場合、ユーザの指示が特定されないことを低減することができ、ユーザの意図と異なる処理が実行されることを低減することができる。この結果、情報処理装置10の使い勝手を向上させることができる。
また、情報処理装置10は、ユーザ入力に応じた制御コマンドを、ユーザ入力の解釈部114による解釈結果に基づいて発行する制御コマンド発行部116を有する。例えば、多義的な指示がユーザから発せられた場合でも、ユーザの指示が解釈部114によりコンテンツ情報に基づいて一意に解釈されるため、ユーザの意図と異なる処理の制御コマンドが発行されることを低減することができる。
また、情報処理装置10は、ユーザ入力に対する応答情報を、ユーザ入力の解釈部114による解釈結果に基づいて生成する応答情報生成部118を有する。例えば、多義的な指示がユーザから発せられた場合でも、ユーザの指示が解釈部114によりコンテンツ情報に基づいて一意に解釈されるため、ユーザの意図と異なる指示に対して応答情報が生成されることを低減することができる。
また、応答情報生成部118は、ユーザ入力の解釈部114による解釈結果が複数の解釈を含む場合、複数の解釈のうちのいずれがユーザ入力の内容に当てはまる解釈かをユーザに尋ねる応答情報を生成する。例えば、情報処理装置10は、有効なコンテンツに関するコンテンツ情報を用いてもユーザ入力の内容を一意に特定できない場合に、ユーザ入力の内容をユーザに尋ねる応答情報を用いて、ユーザ入力の内容を特定できる。
[2.第2実施形態]
第2実施形態と上述した第1実施形態の主な相違点は、図7に示すエージェント部110aが図1に示した取得部112の代わりに取得部112aを有する点である。
図7は、本発明の第2実施形態に係る情報処理装置10の全体構成を示すブロック図である。図1から図6において説明した要素と同一又は同様の要素については、同一の符号を付し、詳細な説明を省略する。
図7に示す情報処理装置10は、図1に示した情報処理装置10と同一の構成である。例えば、情報処理装置10は、処理装置100、記憶装置140、入力装置150、出力装置160及び通信装置170を具備するコンピュータシステムにより実現される。情報処理装置10の複数の要素は、単体又は複数のバスで相互に接続される。また、情報処理装置10の複数の要素の各々を、単数又は複数の機器が構成してもよい。あるいは、情報処理装置10の一部の要素は省略されてもよい。
図7に示す処理装置100は、図1に示した制御プログラムPRの代わりに制御プログラムPRaを実行することを除いて、図1に示した処理装置100と同一又は同様である。例えば、処理装置100は、記憶装置140から制御プログラムPRaを読み出して実行することによって、エージェント部110aとして機能する。
エージェント部110aは、図1に示したエージェント部110と同様に、自然言語によるユーザの入力であるユーザ入力を解釈して、ユーザ入力に応じた処理を実行する。なお、図7のエージェント部110a内に示した取得部112a、解釈部114、制御コマンド発行部116及び応答情報生成部118は、エージェント部110aの機能ブロックの一例である。すなわち、情報処理装置10は、取得部112a、解釈部114、制御コマンド発行部116及び応答情報生成部118を有する。図7に示す解釈部114、制御コマンド発行部116及び応答情報生成部118は、図1に示した解釈部114、制御コマンド発行部116及び応答情報生成部118と同一である。このため、図7では、取得部112aについて説明する。
取得部112aは、ディスプレイ162に複数のウインドウが表示される場合、複数のウインドウのうち、ユーザの入力を受け付けるアクティブ状態のウインドウに対応するコンテンツを特定する。そして、取得部112aは、アクティブ状態のウインドウに対応するコンテンツに関するコンテンツ情報を取得する。例えば、取得部112aは、ディスプレイ162に表示されている複数のウインドウのうち、地図が表示されたウインドウがアクティブ状態である場合、地図の表示を有効なコンテンツとして特定する。そして、取得部112aは、有効なコンテンツに関するコンテンツ情報を取得する。
図8は、図7に示した情報処理装置10の動作の一例を示す説明図である。なお、図8は、2つのウインドウWD(WD10及びWD20)がディスプレイ162に表示されている場合の情報処理装置10の動作の一例を示す。ウインドウWD10には、映画が表示され、ウインドウWD20には、メールが表示されている。図8のウインドウWD内の上側の濃い網掛けは、ユーザの入力を受け付けるアクティブ状態のウインドウWDを示す。
状態C1では、取得部112aは、ユーザの入力を受け付けるアクティブ状態のウインドウWDとして、ウインドウWD10を特定する。そして、取得部112aは、ウインドウWD10に再生されている映画を有効なコンテンツとして特定する。したがって、取得部112aは、映画に関するコンテンツ情報を取得する。また、状態C2では、取得部112aは、ユーザの入力を受け付けるアクティブ状態のウインドウWDとして、ウインドウWD20を特定する。そして、取得部112aは、ウインドウWD20に表示されているメールを有効なコンテンツとして特定する。したがって、取得部112aは、メールに関するコンテンツ情報を取得する。
以上、第2実施形態においても、第1実施形態と同様の効果を得ることができる。また、第2実施形態では、取得部112aは、ディスプレイ162に複数のウインドウWDが表示される場合、複数のウインドウWDのうち、ユーザの入力を受け付けるアクティブ状態のウインドウWDに対応するコンテンツを有効なコンテンツとして特定する。このため、ディスプレイ162に複数のウインドウWDが表示される場合でも、情報処理装置10は、ユーザ入力を有効なコンテンツに関するコンテンツ情報に基づいて解釈できる。このため、ディスプレイ162に複数のウインドウWDが表示される場合でも、情報処理装置10の使い勝手を向上させることができる。
[3.第3実施形態]
第3実施形態と上述した第1実施形態の主な相違点は、応答情報の出力態様が有効なコンテンツに関するコンテンツ情報に基づいて決定される点である。
図9は、本発明の第3実施形態に係る情報処理装置10の全体構成を示すブロック図である。図1から図8において説明した要素と同一又は同様の要素については、同一の符号を付し、詳細な説明を省略する。
図9に示す情報処理装置10は、図1に示した出力装置160の代わりに出力装置160Aを有することを除いて、図1に示した情報処理装置10と同一の構成である。例えば、情報処理装置10は、処理装置100、記憶装置140、入力装置150、出力装置160A及び通信装置170を具備するコンピュータシステムにより実現される。情報処理装置10の複数の要素は、単体又は複数のバスで相互に接続される。また、情報処理装置10の複数の要素の各々は、単数又は複数の機器が構成してもよい。あるいは、情報処理装置10の一部の要素は省略されてもよい。
出力装置160Aは、振動発生部168を有することを除いて、図1に示した出力装置160と同一の構成である。すなわち、出力装置160Aは、ディスプレイ162、スピーカー164、発光部166及び振動発生部168を有する。振動発生部168は、例えば、バイブレータであり、処理装置100による制御のもとで振動する。具体的には、処理装置100は、応答情報の内容に応じて振動発生部168を振動させることにより、情報処理装置10を振動させる。処理装置100は、応答情報の内容に応じた振動のパターンを、電話の着信を知らせる振動のパターン等と異なるパターンにしてもよい。
図9に示す処理装置100は、図1に示した制御プログラムPRの代わりに制御プログラムPRbを実行することを除いて、図1に示した処理装置100と同一又は同様である。例えば、処理装置100は、記憶装置140から制御プログラムPRbを読み出して実行することによって、エージェント部110b、表示データ生成部120及び音データ生成部130として機能する。
エージェント部110bは、図1に示したエージェント部110と同様に、自然言語によるユーザの入力であるユーザ入力を解釈して、ユーザ入力に応じた処理を実行する。なお、図9のエージェント部110b内に示した取得部112、解釈部114、制御コマンド発行部116、応答情報生成部118及び出力態様決定部119は、エージェント部110bの機能ブロックの一例である。すなわち、情報処理装置10は、取得部112、解釈部114、制御コマンド発行部116、応答情報生成部118及び出力態様決定部119を有する。図9に示す取得部112、解釈部114、制御コマンド発行部116及び応答情報生成部118は、図1に示した解釈部114、制御コマンド発行部116及び応答情報生成部118と同一である。このため、図9では、出力態様決定部119、表示データ生成部120及び音データ生成部130について説明する。
出力態様決定部119は、応答情報の出力態様を、有効なコンテンツに関するコンテンツ情報に基づいて決定する。例えば、出力態様決定部119は、複数の出力態様を含む出力態様候補から応答情報の出力態様をコンテンツ情報に基づいて選択する。出力態様候補は、例えば、応答情報を画像で出力する出力態様、応答情報を音で出力する出力態様、応答情報を振動で出力する出力態様及び応答情報の内容に応じた光を出力する出力態様のうちの複数の出力態様を含む。
応答情報を画像で出力する出力態様は、例えば、応答情報の内容をテキストで表示する出力態様及び応答情報の内容に応じたアイコンを表示する出力態様を含んでもよい。また、応答情報を音で出力する出力態様は、例えば、応答情報の内容を示すテキストを読み上げる出力態様と、応答情報の内容を識別可能なメロディー、ハーモニー、リズム(又はテンポ)及び音色等の音楽的要素で出力する出力態様とを含んでもよい。
表示データ生成部120は、出力態様決定部119により応答情報の出力態様が応答情報を画像で出力する出力態様に決定された場合、応答情報の内容を示すテキスト又はアイコン等の表示データを生成する。そして、表示データ生成部120は、生成した表示データをディスプレイ162に転送する。
音データ生成部130は、出力態様決定部119により応答情報の出力態様が応答情報を音で出力する出力態様に決定された場合、応答情報の内容を示す音データを生成する。音データは、例えば、応答情報の内容を示すテキストを読み上げる音のデータ又は応答情報の内容を識別可能な音楽的要素を含む音のデータ等である。音データ生成部130は、生成した音データをスピーカー164に転送する。
なお、エージェント部110bの機能ブロックは、図9に示す例に限定されない。例えば、エージェント部110bは、取得部112の代わりに、図7に示した取得部112aを有してもよい。次に、図10を参照して、コンテンツ情報と応答情報の出力態様との関係の一例を説明する。
図10は、コンテンツ情報と応答情報の出力態様との関係の一例を示す説明図である。なお、コンテンツ情報と応答情報の出力態様との関係等は、図10に示す例に限定されない。図10では、複数のパラメータのうちの1つのパラメータが示す情報を抜粋して記載している。例えば、コンテンツの種類が映画又はTV番組の場合、字幕の有無を示すパラメータの情報を記載し、コンテンツの種類がメールの場合、ウインドウサイズを示すパラメータの情報を記載している。
例えば、コンテンツの種類が映画又はTV番組で、字幕がない場合、応答情報の出力態様として、テキストが選択される。情報処理装置10は、ユーザ入力に対してテキスト表示で応答することにより、映画等の音声が聞き取り難くなることを防止できる。
また、コンテンツの種類が映画又はTV番組で、字幕がある場合、応答情報の出力態様として、字幕と異なる書体のテキストが選択される。情報処理装置10は、応答情報の内容を映画の字幕と異なる書体で表示することにより、ディスプレイ162に表示された文章が応答情報の内容を示すのか映画の字幕であるのかを容易に区別させることができる。また、情報処理装置10は、応答情報の内容をディスプレイ162上の字幕に重ならない位置に表示することにより、映画の字幕が見難くなることを防止できる。
コンテンツの種類がメールで、全画面表示である場合、応答情報の出力態様として、音声が選択される。情報処理装置10は、ユーザ入力に対して音声で応答することにより、メールの文章等が読み難くなることを防止できる。例えば、応答情報の出力態様がテキストである場合、応答情報の内容を示すテキストがメールの文章等に重ねて表示されると、メールの文章等が読み難くなる。
また、コンテンツの種類がメールで、縮小表示である場合、応答情報の出力態様として、音声及びテキストの両方が選択される。情報処理装置10は、ユーザ入力に対して音声とテキストの両方で応答することにより、音声のみで応答する場合に比べて、応答情報の内容をユーザに確実に伝えることができる。また、情報処理装置10は、応答情報の内容をディスプレイ162上のメールの表示領域と異なる領域に表示することにより、メールの文章等が読み難くなることを防止できる。例えば、応答情報の内容を示すテキストがメールの表示領域に表示される場合、応答情報の内容を示すテキストがメールの文章等に重ねて表示されると、メールの文章等が読み難くなる。
コンテンツの種類が地図で、全画面表示である場合、応答情報の出力態様として、音声が選択される。この場合、表示中の地図が見難くなることを防止することができる。例えば、応答情報の出力態様がテキストである場合、応答情報の内容を示すテキストが地図に重ねて表示されると、表示中の地図が見難くなる。また、コンテンツの種類が地図で、縮小表示である場合、応答情報の出力態様として、音声及びテキストの両方が選択される。この場合、音声のみで応答する場合に比べて、応答情報の内容をユーザに確実に伝えることができる。なお、情報処理装置10は、応答情報の内容をディスプレイ162上の地図の表示領域と異なる領域に表示することにより、表示中の地図が見難くなることを防止できる。
コンテンツの種類がアクションゲームで、全画面表示である場合、応答情報の出力態様として、音声が選択される。この場合、ゲームの画面等が見難くなることを防止することができ、アクションゲームの進行に支障が生じることを抑止することができる。例えば、応答情報の出力態様がテキストである場合、応答情報の内容を示すテキストがゲームの画面等に重ねて表示されると、ゲームの画面等が見難くなる。また、コンテンツの種類がアクションゲームで、縮小表示である場合、応答情報の出力態様として、音声及びテキストの両方が選択される。この場合、音声のみで応答する場合に比べて、応答情報の内容をユーザに確実に伝えることができる。なお、情報処理装置10は、応答情報の内容をディスプレイ162上のアクションゲームの表示領域と異なる領域に表示することにより、ゲームの画面等が見難くなることを防止できる。
コンテンツの種類が音楽ゲームで、全画面表示である場合、応答情報の出力態様として、テキストが選択される。なお、コンテンツの種類が音楽ゲームで、縮小表示である場合も、応答情報の出力態様として、テキストが選択される。情報処理装置10は、ユーザ入力に対してテキストで応答することにより、ゲームの音が聞き取り難くなることを防止でき、音楽ゲームの進行に支障が生じることを抑止できる。例えば、応答情報の出力態様が音声である場合、応答情報の内容をユーザに伝える音声がゲームの音と重なると、応答情報の内容及びゲームの音が聞き取り難くなる。
図11は、図9に示した情報処理装置10の動作の一例を示すフローチャートである。なお、図11に示す動作は、情報処理装置10の制御方法の一例である。図11に示す動作は、ステップS132の処理が図6に示した動作に追加されることを除いて、図6に示した動作と同一又は同様である。このため、図11では、ステップS132の処理を中心に情報処理装置10の動作を説明する。ステップS132の処理は、例えば、ステップS130の処理が実行された後に実行される。
ステップS132では、処理装置100は、出力態様決定部119として機能し、ステップS120において取得したコンテンツ情報に基づいて、応答情報の出力態様を決定する。例えば、ステップS142、S150及びS170では、ステップS132の処理で決定された出力態様で、応答情報が出力される。ステップS132の処理が実行された後、ステップS140の処理が実行される。
なお、情報処理装置10の動作は、図11に示す例に限定されない。例えば、ステップS132の処理は、ステップS120の処理が実行された後であれば、ステップS130の処理が実効される前に実行されてもよい。また、例えば、出力態様決定部119は、コンテンツ情報の他に、ユーザ入力の内容及び応答情報の内容の一方又は両方を考慮して、応答情報の出力態様を決定してもよい。すなわち、出力態様決定部119は、コンテンツ情報とユーザ入力の内容とに基づいて応答情報の出力態様を決定してもよいし、コンテンツ情報とユーザ入力の内容と応答情報の内容とに基づいて応答情報の出力態様を決定してもよい。例えば、ユーザ入力の内容が緊急性の高い要求等である場合、あるいは、応答情報の内容が確実にユーザに認知してもらいたいもの(例えば、緊急性の高い内容等)である場合、応答情報の出力態様として、テキスト及び音声の両方が選択されてもよい。
また、例えば、応答情報がユーザの指示を承知したこと等の簡単な内容を伝える情報である場合、情報処理装置10は、振動発生部168を振動させることにより応答情報をユーザに伝えてもよい。あるいは、応答情報が簡単な内容を伝える情報である場合、情報処理装置10は、LED等の発光部166を点灯又は点滅させることにより応答情報をユーザに伝えてもよいし、短い音をスピーカー164から出力することにより応答情報をユーザに伝えてもよい。
以上、第3実施形態においても、第1実施形態と同様の効果を得ることができる。また、第3実施形態では、情報処理装置10は、応答情報の出力態様をコンテンツ情報に基づいて決定する出力態様決定部119を有する。例えば、情報処理装置10は、ユーザ入力に対する応答情報の出力態様を有効なコンテンツに関するコンテンツ情報に応じて変更できる。このため、図10において説明したように、情報処理装置10の使い勝手を向上させることができる。
[4.変形例]
本発明は、以上に例示した実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
[第1変形例]
上述した第2実施形態では、ディスプレイ162に表示された複数のウインドウWDのうち、アクティブ状態のウインドウWDに対応するコンテンツを有効なコンテンツとして特定する例を示したが、有効なコンテンツはアクティブ状態のウインドウWDに対応するコンテンツに限定されない。例えば、取得部112は、アクティブ状態のウインドウWDに対する操作が所定時間以上実行されない場合、複数のウインドウWDにそれぞれ対応する複数のコンテンツのうち、予め決められた優先度の最も高いコンテンツを有効なコンテンツとして特定してもよい。例えば、図8の状態C2において、ユーザが、送信メールを作成して送信した後、メールに対する操作を所定時間以上実行することなく、ウインドウWD10に表示されている映画を視聴し続けた場合で、映画の優先度がメールの優先度より高い場合、取得部112aは、アクティブ状態のメールでなく、映画を有効なコンテンツとして特定してもよい。
[第2変形例]
上述した第1実施形態から第3実施形態までの各実施形態では、出力装置160及び160Aが発光部166を有する例を示したが、応答情報の内容に応じた光を発光部166から出力する出力態様が出力態様候補に含まれない場合等において、発光部166は、出力装置160及び160Aから省かれてもよい。また、出力装置160は、応答情報を振動で出力する出力態様が出力態様候補に含まれる場合等において、振動発生部168を有してもよい。
[第3変形例]
情報処理装置10は、補助記憶装置を有してもよい。補助記憶装置は、処理装置100が読取可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)等の光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、及び、磁気ストリップ等の少なくとも1つによって構成されてもよい。補助記憶装置は、ストレージと呼ばれてもよい。
[5.その他]
(1)上述した実施形態では、記憶装置140は、処理装置100が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD−ROM(Compact Disc−ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、電気通信回線を介してネットワークから送信されてもよい。また、プログラムは、電気通信回線を介して通信網から送信されてもよい。
(2)上述した実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE−Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。
なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、信号はメッセージであってもよい。
(3)上述した実施形態において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
(4)上述した実施形態において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
(5)上述した実施形態において例示した処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
(6)図1、図7及び図9に例示された各機能は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
(7)上述した実施形態で例示したプログラムは、ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
(8)前述の各形態において、「システム」及び「ネットワーク」という用語は、互換的に使用される。
(9)本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。
(10)上述した実施形態において、「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
(11)上述した実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
(12)本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
(13)上述した実施形態において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
(14)本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
(15)本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
10…情報処理装置、100…処理装置、110、110a、110b…エージェント部、112、112a…取得部、114…解釈部、116…制御コマンド発行部、118…応答情報生成部、119…出力態様決定部、120…表示データ生成部、130…音データ生成部、140…記憶装置、150…入力装置、152…マイクロフォン、154…操作部、160、160A…出力装置、162…ディスプレイ、164…スピーカー、166…発光部、168…振動発生部、170…通信装置、WD10、WD20…ウインドウ。

Claims (7)

  1. コンテンツに関するコンテンツ情報を取得する取得部と、
    前記コンテンツを処理するアプリケーションに対する自然言語によるユーザ入力を前記コンテンツ情報に基づいて解釈する解釈部と、
    を備えることを特徴とする情報処理装置。
  2. 前記ユーザ入力に応じた制御コマンドを、前記ユーザ入力の前記解釈部による解釈結果に基づいて発行する制御コマンド発行部を備える、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記ユーザ入力に対する応答情報を、前記ユーザ入力の前記解釈部による解釈結果に基づいて生成する応答情報生成部を備える、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記応答情報生成部は、前記ユーザ入力の前記解釈部による解釈結果が複数の解釈を含む場合、前記複数の解釈のうちのいずれが前記ユーザ入力の内容に当てはまる解釈かをユーザに尋ねる前記応答情報を生成する、
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記応答情報の出力態様を前記コンテンツ情報に基づいて決定する出力態様決定部を備える、
    ことを特徴とする請求項3又は4に記載の情報処理装置。
  6. 前記取得部は、表示装置に複数のウインドウが表示される場合、前記複数のウインドウのうち、ユーザの入力を受け付けるアクティブ状態のウインドウに対応する前記コンテンツに関する前記コンテンツ情報を取得する、
    ことを特徴とする請求項1から5までのうちいずれか1項に記載の情報処理装置。
  7. 前記コンテンツ情報は、前記コンテンツの種類に応じて定められた複数のパラメータを有する、
    ことを特徴とする請求項1から6までのうちいずれか1項に記載の情報処理装置。
JP2020541024A 2018-09-06 2019-06-14 情報処理装置 Pending JPWO2020049826A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018166791 2018-09-06
JP2018166791 2018-09-06
PCT/JP2019/023630 WO2020049826A1 (ja) 2018-09-06 2019-06-14 情報処理装置

Publications (1)

Publication Number Publication Date
JPWO2020049826A1 true JPWO2020049826A1 (ja) 2021-09-24

Family

ID=69722020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020541024A Pending JPWO2020049826A1 (ja) 2018-09-06 2019-06-14 情報処理装置

Country Status (2)

Country Link
JP (1) JPWO2020049826A1 (ja)
WO (1) WO2020049826A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2003263188A (ja) * 2002-01-29 2003-09-19 Samsung Electronics Co Ltd 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2003263188A (ja) * 2002-01-29 2003-09-19 Samsung Electronics Co Ltd 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体

Also Published As

Publication number Publication date
WO2020049826A1 (ja) 2020-03-12

Similar Documents

Publication Publication Date Title
US11501774B2 (en) Automatically executing operations sequences
JP7171438B2 (ja) ユーザインタフェース方法及び装置
US8910077B2 (en) Information processing device and computer readable medium
JP2019075135A (ja) 情報処理装置、情報処理方法、およびプログラム
CN110085222B (zh) 用于支持语音对话服务的交互装置和方法
CN108763579A (zh) 搜索内容推荐方法、装置、终端设备及存储介质
JP2023511185A (ja) チャット情報検索方法及び電子機器
US10468004B2 (en) Information processing method, terminal device and computer storage medium
JP4757806B2 (ja) 電子文書表示装置及び方法
US20160156774A1 (en) Techniques for enhancing content on a mobile device
KR20130085703A (ko) 영상 표시 장치에서 멀티미디어 컨텐츠의 재생구간을 탐색하기 위한 장치 및 방법
KR102625254B1 (ko) 입력기를 통해 이미지와 관련된 정보를 어플리케이션에 제공하는 전자 장치 및 방법
WO2020244487A1 (zh) 彩蛋的展示方法、装置、电子设备和计算机可读存储介质
WO2011037253A1 (ja) 表示システム
CN108427549B (zh) 通知消息的声音处理方法、装置、存储介质及终端
JPWO2020049826A1 (ja) 情報処理装置
US20120210277A1 (en) Usage based screen management
US11460971B2 (en) Control method and electronic device
KR20140111574A (ko) 오디오 명령에 따른 동작을 수행하는 장치 및 방법
JP6196101B2 (ja) 情報処理装置、方法およびプログラム
JP2014021950A (ja) コンテンツ表示装置、コンテンツ表示方法およびプログラム
JPWO2020049827A1 (ja) 情報処理装置
JP2024509824A (ja) ドキュメントの編集方法、装置、デバイス及び記憶媒体
CN108874975A (zh) 搜索内容推荐方法、装置、终端设备及存储介质
US20220197939A1 (en) Image-based search method, server, terminal, and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220802