JP6642424B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP6642424B2
JP6642424B2 JP2016525735A JP2016525735A JP6642424B2 JP 6642424 B2 JP6642424 B2 JP 6642424B2 JP 2016525735 A JP2016525735 A JP 2016525735A JP 2016525735 A JP2016525735 A JP 2016525735A JP 6642424 B2 JP6642424 B2 JP 6642424B2
Authority
JP
Japan
Prior art keywords
information
output
display
function
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016525735A
Other languages
English (en)
Other versions
JPWO2015186445A1 (ja
Inventor
麗子 桐原
麗子 桐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2015186445A1 publication Critical patent/JPWO2015186445A1/ja
Application granted granted Critical
Publication of JP6642424B2 publication Critical patent/JP6642424B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1407General aspects irrespective of display type, e.g. determination of decimal point position, display with fixed or driving decimal point, suppression of non-significant zeros
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05BELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
    • H05B47/00Circuit arrangements for operating light sources in general, i.e. where the type of light source is not relevant
    • H05B47/10Controlling the light source
    • H05B47/105Controlling the light source in response to determined parameters
    • H05B47/115Controlling the light source in response to determined parameters by determining the presence or movement of objects or living beings
    • H05B47/12Controlling the light source in response to determined parameters by determining the presence or movement of objects or living beings by detecting audible sound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
近年では、文字情報を音声に変換する音声合成技術や、ユーザが発話した内容を文字情報として認識する音声認識技術、及び、文章が示す内容を認識する自然言語処理技術が発展してきている。そのため、これらの技術を応用することで、ユーザが、テレビ受像機等の各種家電機器や、パーソナルコンピュータ等の情報機器と、音声により対話を行うことで、当該機器を操作可能とした、音声入力に基づく対話型のユーザインタフェース(UI:User Interface)が普及してきている。
また、音声入力に基づく対話型のユーザインタフェースでは、音声出力による情報の提示と、当該音声出力とは異なる他の出力方法による情報の提示(例えば、画像やアニメーション等表示情報の提示)とを組み合わせることで、ユーザがより直感的に情報を認識することが可能な仕組みも検討されている。
特開2005−165438号公報
一方で、近年では、各種家電機器や情報機器(以降では、総じて「情報処理装置」と呼ぶ場合がある)の多機能化に伴い、情報処理装置からユーザに提示される情報の量が増加し、情報処理装置からユーザに対して複数の情報が一連の情報として提示される場合も少なくない。
しかしながら、複数の情報が一連の情報として提示される場合には、音声出力される各情報(即ち、音声出力された各語句)と、他の出力方法により出力された各情報(例えば、画像やアニメーション等の表示情報)との対応関係が必ずしも明確に提示されるとは限らず、直感的な操作を阻害する要因となる場合がある。
そこで、本開示では、音声出力に対応する他の情報を直感的にユーザに認識させることが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。
本開示によれば、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御する制御部、を備える、情報処理装置が提供される。
また、本開示によれば、プロセッサが、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータに、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、を実行させる、プログラムが提供される。
以上説明したように本開示によれば、音声出力に対応する他の情報を直感的にユーザに認識させることが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理装置の概要について説明するための説明図である。 同実施形態に係る情報処理装置の概略的な動作の一例について説明するための説明図である。 同実施形態に係る情報処理装置による情報の提示方法の一例について説明するための説明図である。 同実施形態に係る情報処理装置の機能構成の一例を示したブロック図である。 入力情報に応じた応答内容の一例について説明するための説明図である。 応答情報の一例について説明するための説明図である。 同実施形態に係る情報処理装置の一連の動作の一例を示したフローチャートである。 同実施形態に係る情報処理装置の応答処理の流れの一例を示したフローチャートである。 実施例1に係る情報処理装置による情報の提示方法の一例について説明するための説明図である。 実施例1に係る応答情報の一例について説明するための説明図である。 実施例2に係る情報処理装置による情報の提示方法の一例について説明するための説明図である。 実施例2に係る応答情報の一例について説明するための説明図である。 応答情報に定義され得る制御情報の一例を示した図である。 実施例3に係る情報処理装置の動作の一例について説明するための説明図である。 実施例3に係る応答情報の一例について説明するための説明図である。 実施例3に係る情報処理装置の動作の一例について説明するための説明図である。 実施例3に係る応答情報の一例について説明するための説明図である。 実施例4に係る情報処理装置の一例について説明するための図である。 実施例4に係る情報処理装置の他の一例について説明するための図である。 実施例5に係る情報処理装置の一例について説明するための図である。 同実施形態に係る情報処理装置のハードウェア構成の一例を示した図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概要
2.機能構成
3.処理
4.実施例
4.1.実施例1:表示情報の提示方法の一例
4.2.実施例2:表示情報の提示方法の一例
4.3.実施例3:処理内容に応じて情報の提示を制御する場合の一例
4.4.実施例4:複数のユーザに対する情報の提示方法の一例
4.5.実施例5:ユーザの割り込みに伴う情報の提示方法の一例
5.ハードウェア構成
6.まとめ
<1.概要>
本実施形態に係る情報処理装置10は、ユーザUaが当該情報処理装置10との間で音声により対話を行うことで、当該情報処理装置10を操作可能とした、所謂、音声入力に基づく対話型のユーザインタフェースを備える。そこで、以下に、図1を参照して、本開示の実施形態に係る情報処理装置の概要について説明する。図1は、本実施形態に係る情報処理装置の概要について説明するための説明図である。
図1に示すように、情報処理装置10は、マイク等の集音デバイス(図示しない)を備え、当該集音デバイスを介して、ユーザUaが発話した音声情報を、音声入力c10として集音可能に構成されている。また、情報処理装置10は、スピーカ等の音響出力デバイスを備え、当該音響出力デバイスを介して、ユーザUaに対して音声情報c11を提示可能に構成されている。また、図1に示す例では、情報処理装置10は、壁面などに設置可能に構成されており、所謂プロジェクタのように、当該壁面を投影面として、画像やアイコン等の表示情報v11を投影することで、当該壁面上に表示させる。
このような構成に基づき、情報処理装置10は、ユーザUaが、当該情報処理装置10に対する要求を示す内容を発話することで、当該情報処理装置10を操作可能に構成されている。具体的には、情報処理装置10は、ユーザUaの発話内容を音声入力c10として取得し、当該音声入力c10の内容が示すユーザUaの要求に対して、音声情報c11と表示情報v11とを出力することで応答する。
例えば、図1に示す例では、ユーザUaは、「ロンドンは何時?」と発話することで、情報処理装置10に対して、「ロンドンの時間の提示」を要求として伝えている。このとき、情報処理装置10は、ユーザUaが発話した内容を音声入力c10として集音し、当該音声入力c10を音声認識技術に基づき解析することで、文字情報に変換する。そして、情報処理装置10は、音声入力c10が変換された文字情報を、自然言語処理技術に基づく解析(例えば、字句解析、構文解析、及び意味解析)を施すことで、当該文字情報が示す意味内容(換言すると、音声入力c10が示す意味内容)を認識する。
情報処理装置10は、音声入力c10が示す意味内容に基づき対応するアプリケーション(即ち、機能)を実行する。例えば、図1に示す例では、情報処理装置10は、指定された地域の時間を取得する「時計」のアプリケーションを実行することとなる。
そして、情報処理装置10は、ユーザUaの音声入力c10に対する応答として、アプリケーションの実行結果を示す音声情報c11を出力するとともに、当該音声情報c11の出力に連動して、当該実行結果を示すアイコンや画像等の表示情報v11を提示する。例えば、図1に示す例では、情報処理装置10は、「ロンドンは何時?」という音声入力c10に対して、「時計」アプリケーションの実行結果に基づき、「午後5時です」という音声情報c11を応答として出力する。
また、このとき、情報処理装置10は、「午後5時です」という音声情報c11の出力に連動して、「午後5時」を識別可能に提示した時計の表示情報v11(例えば、アイコン)を、投影面内にフェードインするように表示させている。
このように、本実施形態に係る情報処理装置10は、音声入力c10として提示されたユーザの要求に対する応答を、音声情報c11として出力するとともに、表示情報v11を表示させることで、ユーザUaに対して、応答内容を視覚的にも提示している。これにより、ユーザUaは、情報処理装置10の応答内容を、音声情報c11のみを出力する場合に比べて、より直感的に認識することが可能となる。
一方で、図1に示す例では、情報処理装置10は、ユーザUaに対して、「午後5時」という単一の情報のみを提示している。そのため、ユーザUaは、このとき出力される音声情報c11と表示情報v11とが、「午後5時」という情報に対応していることを直感的に認識することが可能である。
しかしながら、情報処理装置10がユーザUaに対して提示する情報は、必ずしも1つとは限らず、互いに異なる複数の情報により構成された一連の情報を、音声情報及び表示情報として提示する場合がある。例えば、図2は、本実施形態に係る情報処理装置の概要について説明するための説明図であり、情報処理装置10が、複数の情報により構成された一連の情報を、音声情報及び表示情報としてユーザUaに提示する場合の一例を示している。
図2に示す例では、ユーザUaが、情報処理装置10に対して「何ができるの?」と発話することで、「情報処理装置10が有する機能(実行可能なアプリケーション)の一覧の提示」を要求している。これに対して、情報処理装置10は、「時計、天気予報、家族カレンダーです」という音声情報c21を出力し、当該音声情報c21の出力に連動して、「時計」、「天気予報」、及び「家族カレンダー」を示す表示情報v11〜v15を表示させている。なお、図2に示すように、音声情報c21には、「時計」の機能を示す語句c211、「天気予報」の機能を示す語句c213、及び「家族カレンダー」の機能を示す語句c215と、助動詞「です」を示す語句c217とが含まれている。
このとき、例えば、表示情報v11〜v15を一連の情報として、一連の語句c211〜c217(即ち、音声情報c21)と単に連動して出力させたとしても、ユーザUaが、語句c211〜c217と、表示情報v11〜v15との対応関係を認識できるとは限らない。
具体的な一例として、情報処理装置10が、語句c211〜c217を一連の音声情報c21として出力する際に、当該音声情報c21の出力に連動して、表示情報v11〜v15を同時にユーザUaに提示したとする。このとき、ユーザUaは、一連の音声情報c21と、一連の表示情報v11〜v15とが対応していることを直感的に認識することは可能である。
しかしながら、語句c211〜c215を、表示情報v11〜v15のそれぞれに対応づけようとした場合に、ユーザUaは、表示情報v11〜v15が示す意味を理解し、音声出力された語句c211〜c215にそれぞれ対応付けるという思考過程が必要となる。
このように、表示情報v11〜v15を一連の情報として、一連の語句c211〜c217(即ち、音声情報c21)と単に連動して出力したとしても、当該情報の提示方法が、ユーザUaによる情報処理装置10の直感的な操作を阻害する要因となる場合がある。
そこで、本実施形態に係る情報処理装置10は、一連の語句c211〜c217のうち、各機能に対応する語句c211〜c215それぞれの音声出力に同期して、当該機能に対応付けられた表示情報v11〜v15の出力を制御する。
具体的な一例として、情報処理装置10は、一連の語句c211〜c217のうち、「時計」の機能を示す語句c211の音声出力に同期して、「時計」の機能を示す表示情報v11を、投影面内にフェードインするように表示させる。
次いで、情報処理装置10は、「天気予報」の機能を示す語句c213の音声出力に同期して、「天気予報」の機能を示す表示情報v13を、投影面内にフェードインするように表示させる。同様に、情報処理装置10は、「家族カレンダー」の機能を示す語句c215の音声出力に同期して、「家族カレンダー」の機能を示す表示情報v15を、投影面内にフェードインするように表示させる。
ここで、図3を参照しながら、情報処理装置10が、各機能に対応する語句c211〜c215それぞれの音声情報と、当該機能に対応付けられた表示情報v11〜v15とを出力する処理の流れについて、時系列に沿って説明する。図3は、本実施形態に係る情報処理装置10による情報の提示方法の一例について説明するための説明図である。
例えば、情報処理装置10は、参照符号t11で示されたタイミングで「時計」の機能を示す語句c211の音声出力と、当該「時計」の機能を示す表示情報v11の投影面内へのフェードインとを開始する。このとき、情報処理装置10は、タイミングt11からあらかじめ設定された期間(例えば、300[ms])の経過後に、表示情報v11のフェードインが完了するように、当該表示情報v11の出力を制御する。なお、図3において、タイミングt11〜t12までの期間が、表示情報v11のフェードインを開始してから完了するまでの期間に相当する。即ち、タイミングt12では、投影面内には、表示情報v11が提示されていることとなる。
次いで、情報処理装置10は、参照符号t13で示されたタイミングで「天気予報」の機能を示す語句c213の音声出力と、当該「天気予報」の機能を示す表示情報v13の投影面内へのフェードインとを開始する。このとき、情報処理装置10は、タイミングt13からあらかじめ設定された期間(例えば、300[ms])の経過後に、表示情報v13のフェードインが完了するように、当該表示情報v13の出力を制御する。なお、図3において、タイミングt13〜t14までの期間が、表示情報v13のフェードインを開始してから完了するまでの期間に相当する。即ち、タイミングt14では、投影面内には、表示情報v11及びv13が提示されていることとなる。
同様に、情報処理装置10は、参照符号t15で示されたタイミングで「家族カレンダー」の機能を示す語句c215の音声出力と、当該「家族カレンダー」の機能を示す表示情報v15の投影面内へのフェードインとを開始する。このとき、情報処理装置10は、タイミングt15からあらかじめ設定された期間(例えば、300[ms])の経過後に、表示情報v15のフェードインが完了するように、当該表示情報v15の出力を制御する。なお、図3において、タイミングt15〜t16までの期間が、表示情報v15のフェードインを開始してから完了するまでの期間に相当する。即ち、タイミングt16では、投影面内には、表示情報v11、v13、及びv15が提示されていることとなる。
そして、情報処理装置10は、一連の表示情報v11、v13、及びv15の出力の完了後のタイミングt17で、音声出力が完了していない残りの語句、即ち、助動詞「です」を示す語句c217の音声出力を行う。以上をもって、情報処理装置10は、ユーザUaの「何ができるの?」という音声入力に対する一連の応答を終了する。
なお、上記では、情報処理装置10が、所謂プロジェクタのように、投影面に対して表示情報を投影することで、当該投影面上に当該表示情報を表示させる例について説明したが、表示情報を表示させる構成は必ずしも上記に説明した構成には限定されない。
例えば、表示情報を表示させるための構成として、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイ装置などを適用してもよい。そこで、以降では、図1における投影面のように、情報処理装置10が、情報を表示させる領域を、単に「表示面」と記載する場合がある。なお、表示情報を表示させるための構成として、液晶ディスプレイや有機ELディスプレイ装置等を適用し場合には、当該ディスプレイの表示パネルが、「表示面」に相当することとなる。
このように、情報処理装置10が、各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応付けられた表示情報の出力を制御することで、ユーザは、音声出力された機能に対応する表示情報を直感的に認識することが可能となる。そこで、以降では、本実施形態に係る情報処理装置10について、さらに詳しく説明する。
<2.機能構成>
まず、図4を参照して、本実施形態に係る情報処理装置10の機能構成の一例について説明する。図4は、本実施形態に係る情報処理装置10の機能構成の一例を示したブロック図である。
図4に示すように、本実施形態に係る情報処理装置10は、入力情報解析部101と、応答情報生成部103と、処理実行部105と、辞書情報記憶部109と、応答制御部111と、音声合成部115と、表示制御部117とを含む。また、情報処理装置10は、集音部41、音響出力部51、及び表示部53と連携して動作する。なお、情報処理装置10は、集音部41、音響出力部51、及び表示部53の一部または全部を含んでもよい。また、上記に示した情報処理装置10に含まれる各構成は、当該情報処理装置10を構成するハードウェア回路により実現され得る。
集音部41は、マイク等のような音響情報を集音可能なデバイスにより構成され得る。集音部41は、ユーザUaが発話した音声情報を音声入力として集音し、集音した音声入力を入力情報解析部101に逐次出力する。
入力情報解析部101は、集音部41から逐次出力される、当該集音部41が集音したユーザUaの音声入力を取得する。入力情報解析部101は、取得した音声入力に対して音声認識技術に基づく解析処理を施すことで、当該音声入力を文字情報に変換する。
また、入力情報解析部101は、音声入力が変換された文字情報に対して、字句解析や構文解析を施すことで、当該文字情報に含まれる各単語や、当該単語間の関係(例えば、係り関係)が識別可能に提示されたデータ(例えば、構文木)に構造化する。
そして、入力情報解析部101は、字句解析や構文解析により文字情報が構造化されたデータ(以降では、「入力情報に基づく構造化データ」と呼ぶ場合がある)を、応答情報生成部103に出力する。なお、このとき、入力情報解析部101は、入力情報に基づく構造化データを、構文解析の結果に基づく所定の単位ごと(例えば、文字情報に含まれる文章ごと)に、応答情報生成部103に出力してもよい。
応答情報生成部103は、入力情報に基づく構造化データを、入力情報解析部101から取得する。応答情報生成部103は、取得した当該構造化データに対して意味解析を施すことで、当該構造化データの元となる音声入力の意味内容を解析し、当該解析結果に基づきユーザUaの要求内容を特定する。なお、応答情報生成部103が構造化データに対して意味解析を施すための辞書データは、例えば、辞書情報記憶部109にあらかじめ記憶させておくとよい。
辞書情報記憶部109は、応答情報生成部103が構造化データに対して意味解析を施すための辞書データをあらかじめ記憶している。
また、辞書情報記憶部109は、応答情報生成部103が、入力情報に基づく要求内容に対する応答の内容(以降では、「応答内容」と呼ぶ場合がある)を特定するための管理データd10を記憶している。なお、当該要求内容に対して応答を行うために、所定の機能(アプリケーション)を実行する必要がある場合には、当該管理データd10は、当該要求内容に対して、所定の機能をあらかじめ関連付けていてもよい。
例えば、図5は、入力情報に応じた応答内容の一例について説明するための説明図であり、辞書情報記憶部109に記憶された管理データd10の一例を示している。図5に示すように、管理データd10には、入力情報d11に対して、要求内容d13と、対応機能d15と、応答内容d17とが関連付けられている。
図5において、入力情報d11は、ユーザUaの音声入力が示す内容の一例を示している。また、要求内容d13は、入力情報d11が示すユーザUaの要求内容を示している。また、対応機能d15は、要求内容d13に対して応答を行うために実行する必要がある機能を示している。なお、要求内容d13に対して、所定の機能を実行する必要が無い場合には、対応機能d15に対して情報が登録されていなくてもよい。また、応答内容d17は、要求内容d13に対する応答の内容を示している。なお、図5に示す例では、応答内容d17は、文字情報として定義されている。
具体的な一例として、「何ができるの?」という入力情報d11は、「機能の確認」を示す要求内容d13に対応している。そのため、「機能の確認」を示す要求内容d13には、機能の一覧を提示するための「時計、天気予報、家族カレンダーです」という応答内容d17が関連付けられている。なお、図5に示す例では、「機能の確認」を示す要求内容d13に対して応答を行う場合に、所定の機能を実行する必要がないため、対応機能d15が関連付けられていない。もちろん、情報処理装置10が実行可能な機能が固定ではない場合には、「機能の確認」を示す要求内容d13に関連付けられた対応機能d15に対して、実行可能な機能の一覧を取得する機能(即ち、アプリケーションの一覧を取得する機能)を登録してもよい。
また、他の一例として、「○○は何時?」という入力情報d11は、「時間の確認」を示す要求内容d13に対応し、当該要求内容d13には、対応機能d15として、「時計」の機能が関連付けられている。また、「時間の確認」を示す要求内容d13には、確認した時間を通知するための「××時です」という応答内容d17が関連付けられている。なお、応答内容d17が示す情報は、対応機能d15で示された機能の実行結果を埋め込めるように、一部が変数化されていてもよい。
同様に、「△△の天気は?」という入力情報d11は、「天気予報の確認」を示す要求内容d13に対応し、当該要求内容d13には、「天気予報」の機能を示す対応機能d15と、「晴れ/雨/曇りです」という応答内容d17とが関連付けられている。また、「△△の予定は?」という入力情報d11は、「スケジュールの確認」を示す要求内容d13に対応し、当該要求内容d13には、「家族カレンダー」の機能を示す対応機能d15と、「△△は、××時から・・・です」という応答内容d17とが関連付けられている。また、「△△、××時から・・・」という入力情報d11は、「スケジュールの登録」を示す要求内容d13に対応し、当該要求内容d13には、「家族カレンダー」の機能を示す対応機能d15と、「予定を登録しました」という応答内容d17とが関連付けられている。
なお、管理データd10は、想定されるユーザUaと情報処理装置10との間の会話のパターンに基づき、あらかじめ生成して辞書情報記憶部109に記憶させておくとよい。また、情報処理装置10が、ユーザUaとの間の過去の会話に基づき学習し、当該学習結果に基づき、辞書情報記憶部109に記憶された管理データd10の内容を追加または更新してもよい。
このような構成に基づき、応答情報生成部103は、構造化データに対する意味解析の結果に基づき特定したユーザUaの要求内容と、管理データd10とを照合することで、当該要求内容に関連付けられた、対応機能d15と応答内容d17とを取得する。
そして、応答情報生成部103は、特定した要求内容に関連付けられた対応機能d15を、処理実行部105に実行させ、当該対応機能d15の処理結果を、当該処理実行部105から取得する。
処理実行部105は、情報処理装置10が有する各種機能(アプリケーション)を実行するための構成である。処理実行部105は、応答情報生成部103から指定された機能を実行し、当該機能の実行結果を要求元である応答情報生成部103に通知する。
応答情報生成部103は、取得した応答内容d17に対して、処理実行部105から通知された対応機能d15の処理結果を埋め込むことで、ユーザUaの要求内容d13に対する応答内容d20として確定させる。なお、特定した要求内容に対して対応機能d15が関連付けられていない場合には、応答情報生成部103は、取得した応答内容d17を、ユーザUaの要求内容d13に対する応答内容d20として確定させればよい。
ユーザUaの要求内容に対する応答内容d20を確定させると、応答情報生成部103は、当該応答内容d20に対して、当該応答内容d20の音声出力とあわせて提示する他の情報の出力を制御するための制御情報を埋め込むことで、応答情報d30を生成する。なお、本説明において、応答内容d20の音声出力とあわせて提示する他の情報の出力の制御とは、例えば、図2及び図3に示すように、各機能に対応する表示情報v11〜v15を、表示面内にフェードインするように表示させるための制御が挙げられる。
そこで、図6を参照しながら、応答情報d30の具体的な一例について、図2及び図3に示すように、ユーザUaの「何ができるの?」という発話に対して、音声出力と表示情報とを連動させることで、応答する場合を例に説明する。図6は、応答情報d30の一例について説明するための説明図である。
図6において、参照符号d20は、ユーザUaの「何ができるの?」という発話に基づく入力情報が示す要求内容に対して、応答情報生成部103が特定した応答内容の一例を示している。また、参照符号d30は、図3に示すように、応答内容d20が示す「時計、天気予報、家族カレンダーです」という音声出力に連動して表示情報v11〜v15を提示するために、当該応答内容d20に対して制御情報が埋め込まれた応答情報の一例を示している。
応答情報d30における、「時計」、「、天気予報」、「、家族カレンダー」、「です」で示された各語句d31、d33、d35、及びd37は、応答として音声出力される情報、即ち、応答内容d20中の各語句を示している。
また、参照符号d32、d34、及び、d36は、表示情報v11〜v15の提示を制御するための制御情報の一例である。例えば、制御情報d32は、図2及び図3に示すように、「時計」を示す表示情報v11を表示面内にフェードインするように表示させ、当該フェードインが300[ms]で完了するように、当該表示情報v11の表示を制御するための制御情報の一例を示している。
具体的には、「anim_fadein」タグは、「item」属性で指定された表示情報を、表示面内にフェードインするように表示させるための制御情報に相当する。なお、図6に示す例では、「anim_fadein」タグに対して、「duration」属性として、フェードインするように表示させる期間を指定している。
具体的には、制御情報d32は、「item」属性に指定された「clock_icon」が示す「時計」機能に対応した表示情報v11を、「duration」属性に指定された期間、即ち、「300[ms]」でフェードインするように表示させることを示している。同様に、制御情報d34は、「weather_icon」が示す「天気予報」機能に対応した表示情報v13を「300[ms]」でフェードインするように表示させることを示している。また、制御情報d36は、「calendar_icon」が示す「家族カレンダー」機能に対応した表示情報v15を「300[ms]」でフェードインするように表示させることを示している。
即ち、応答情報生成部103は、応答内容d20のうち、「時計」機能を示す語句d31の直後に、当該「時計」機能に対応した表示情報v11を提示するための制御情報d32を挿入することで、語句d31に対して制御情報d32を関連付けている。同様に、応答情報生成部103は、「天気予報」機能を示す語句d33の直後に、当該「天気予報」機能に対応した表示情報v13を提示するための制御情報d34を挿入することで、語句d33に対して制御情報d34を関連付けている。また、応答情報生成部103は、「家族カレンダー」機能を示す語句d35の直後に、当該「家族カレンダー」機能に対応した表示情報v15を提示するための制御情報d36を挿入することで、語句d35に対して制御情報d36を関連付けている。
なお、応答内容d20に対して、各制御情報d32、d34、及びd36を埋め込む動作の主体は、必ずしも応答情報生成部103でなくてもよい。具体的な一例として、管理データd10の応答内容d17(図5参照)内に、各制御情報d32、d34、及びd36が、テンプレートとしてあらかじめ埋め込まれていてもよい。
また、応答情報生成部103は、対応機能d15の実行結果を応答内容d17に埋め込むことで、応答内容d20を確定させる際に、対応機能d15の実行結果にあわせて、対応する制御情報を埋め込んでもよい。
例えば、要求内容d13が「天気予報の確認」の場合には、応答情報生成部103は、当該要求内容d13に対応機能d15として関連付けられた「天気予報」機能を処理実行部105に実行させる。そして、応答情報生成部103は、「天気予報」機能の実行結果として、天気を示す情報を当該処理実行部105から取得する。
具体的な一例として、応答情報生成部103は、「天気予報」機能の実行結果として「晴れ」を示す情報を取得した場合には、「晴れです」という応答内容d20を確定させる。そして、応答情報生成部103は、当該応答内容d20中の「晴れ」という語句に対して、「晴れ」を示す表示情報を提示するための制御情報を関連付ける。また、他の一例として、「天気予報」機能の実行結果として「雨」を示す情報を取得した場合には、応答情報生成部103は、「雨です」という応答内容d20中の「雨」という語句に対して、「雨」を示す表示情報を提示するための制御情報を関連付ければよい。
なお、図6に示す例では、応答内容d20中に制御情報を、空要素のタグ(即ち、タグ内の最後に「/」が付されたタグ、以降では、「完結タグ」と呼ぶ場合がある)として挿入することで、当該応答内容d20中の語句に関連付ける例について説明した。一方で、制御情報をタグ情報として規定する場合には、制御情報は、必ずしも、完結タグには限定されない。具体的な一例として、制御情報を、開始タグ(「/」を含まないタグ)及び終了タグ(タグ内の最初に「/」が付されたタグ)により定義してもよい。この場合には、応答内容d20中の語句が当該制御情報の要素となるように、当該制御情報を示す開始タグ及び終了タグで当該語句を囲めばよい。
また、応答内容d20中の語句に関連付けて、制御情報を当該応答内容d20中に埋め込むことが可能であれば、制御情報は必ずしもタグ情報である必要はない。例えば、所定の文字を区切り文字(所謂、デリミタ)として、応答情報d20の内容と制御情報とが区別して抽出できるように、当該応答情報d20内に制御情報を埋め込んでもよい。
以上のようにして、応答情報生成部103は、特定した要求内容に対して応答するための応答情報d30を生成し、生成した応答情報d30を応答制御部111に出力する。
応答制御部111は、応答情報生成部103から応答情報d30を取得し、取得した応答情報d30に基づき、情報処理装置10から要求元であるユーザUaに対する応答に係る動作を制御する。そこで、以下に、応答情報d30に基づく応答に係る動作の詳細について、図2及び図3に示すように、ユーザUaからの入力情報に対して、情報処理装置10が、音声出力と表示情報の提示とを連動させて応答する場合を例に説明する。なお、応答制御部111のうち、応答情報生成部103から応答情報d30を取得する構成が、「取得部」の一例に相当する。
応答制御部111は、取得した応答情報d30の内容を先頭から逐次読み出し、読み出した情報の種別に応じて、後述する音声合成部115、または、表示制御部117の動作を制御する。具体的には、応答制御部111は、読み出した情報が応答内容を示す情報の場合には、音声合成部115の動作を制御して、当該情報を音声出力させる。また、読み出した情報が制御情報の場合には、応答制御部111は、当該制御情報に基づき表示制御部117の動作を制御して、音声出力とあわせて提示する表示情報の出力を制御する。
ここで、図6に示した応答情報d30を処理対象とした場合を例に、応答制御部111の動作についてさらに詳しく説明する。
まず、応答制御部111は、応答情報d30の内容を、制御情報(タグ情報)が検出されるまで読み出す。図6に示す例において、応答情報d30の内容を先頭から読み出した場合には、まず、応答制御部111は、「時計」という語句d31を読み出し、当該語句d31の直後に挿入された制御情報d32を検出することとなる。
このとき、応答制御部111は、読み出した「時計」という語句d31を音声合成部115に出力し、当該語句d31に対応する音声情報を音声合成部115に出力させる。また、応答制御部111は、検出された制御情報d32の内容に基づき、「clock_icon」で示された表示情報v11が、「300ms」でフェードインするように表示制御部117に出力させる。
次いで、応答制御部111は、「、天気予報」という語句d33を読み出し、当該語句d33の直後に挿入された制御情報d34を検出することとなる。
この場合には、応答制御部111は、読み出した「、天気予報」という語句d33を音声合成部115に出力し、当該語句d33に対応する音声情報を音声合成部115に出力させる。また、応答制御部111は、検出された制御情報d34の内容に基づき、「weather_icon」で示された表示情報v13が、「300ms」でフェードインするように表示制御部117に出力させる。
以下、同様にして、応答制御部111は、「、家族カレンダー」という語句d35を読み出し、当該語句d35の直後に挿入された制御情報d36を検出する。
そして、応答制御部111は、読み出した「、家族カレンダー」という語句d35を音声合成部115に出力し、当該語句d35に対応する音声情報を音声合成部115に出力させる。また、応答制御部111は、検出された制御情報d36の内容に基づき、「calendar_icon」で示された表示情報v15が、「300ms」でフェードインするように表示制御部117に出力させる。
最後に、応答制御部111は、「です」という語句d37を読み出し、当該語句d37の読み出し後に、応答情報d30の終端を検出する。
この場合には、応答制御部111は、読み出した「です」という語句d37を音声合成部115に出力し、当該語句d37に対応する音声情報を音声合成部115に出力させる。そして、応答制御部111は、応答情報d30の終端の検出に基づき、当該応答情報d30に基づく一連の制御を終了する。
以上のような制御に基づき、応答制御部111は、図2及び図3に基づき説明したように、「時計」、「天気予報」、及び「家族カレンダー」それぞれの音声出力に同期して、対応する機能を示す表示情報それぞれが提示されるように出力を制御する。
次に、音声合成部115、表示制御部117、音響出力部51、及び表示部53のそれぞれについて説明する。
音声合成部115は、ユーザUaに対して音声出力として提示する応答内容を示す情報(例えば、文字情報)を、応答制御部111から取得する。音声合成部115は、取得した応答内容を示す情報から、例えば、音声合成技術に基づき、当該応答内容を発声している音声信号を作成する。なお、音声合成部115が、取得した応答内容を示す情報から、音声信号を生成するための元となる音響信号は、当該音声合成部115が、参照可能な位置にあらかじめ記憶させておけばよい。
そして、音声合成部115は、応答制御部111による制御に基づき、当該応答制御部111に指定されたタイミングで、生成した音声信号を音響出力部51に音声出力させる。音響出力部51は、所謂、スピーカ等のような、音響信号や音声信号を出力するための出力デバイスにより構成され得る。
また、表示制御部117は、応答制御部111による制御に基づき、当該応答制御部111に指定された表示情報を、当該応答制御部111に指定されたタイミング及び表示態様で表示部53に表示させる。なお、応答制御部111に指定されたタイミングを示す情報(換言すると、当該タイミングに基づき制御を行うための情報)が「タイミング情報」の一例に相当する。
例えば、応答制御部111が、図6に示す制御情報d32に基づき、表示制御部117に対して表示情報の提示を指示したものとする。この場合には、表示制御部117は、応答制御部111から指定されたタイミングで、「clock_icon」で示された表示情報v11を、「300ms」でフェードインするように表示部53に表示させることとなる。
なお、表示部53は、出力装置の一例であり、例えば、所謂プロジェクタのように、表示面に対して映像を投影することで、当該映像をユーザに提示するデバイスにより構成され得る。また、他の一例として、表示部53は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイ装置などの表示装置であってもよい。また、表示部53は、ユーザの頭部に装着することで、当該ユーザの眼前に表示面を保持するような、所謂、ヘッドマウントディスプレイ(HMD:Head Mounted Display)であってもよい。また、他の一例として、表示部53は、車載型のディスプレイであってもよく、例えば、フロントガラスに映像を投影することで情報をユーザに提示するような、所謂、ヘッドアップディスプレイ(HUD:Head Up Display)であってもよい。
以上、図4〜6を参照して、本実施形態に係る情報処理装置10の機能構成の一例について説明した。なお、図4に示した情報処理装置10の機能構成は、あくまで一例であり、上記に説明したように各構成が動作可能であれば、当該各構成が設けられる場所は特に限定されない。
具体的な一例として、情報処理装置10に、集音部41、音響出力部51、及び表示部53の一部もしくは全部が含まれていてもよい。もちろん、情報処理装置10、集音部41、音響出力部51、及び表示部53の間の情報の伝搬経路についても特に限定されない。具体的な一例として、情報処理装置10をネットワーク上のサーバ(例えば、クラウドサーバ)として構成してもよい。この場合には、サーバとして構成された情報処理装置10が、インターネット等のネットワークを介して音響出力部51及び表示部53を含むデバイスによる音声情報及び表示情報の出力を制御すればよい。また、音声情報の出力を制御する構成(例えば、音声合成部115に相当する構成)と、表示情報の出力を制御する構成(例えば、表示制御部117に相当する構成)とが連携して動作可能であれば、これらの構成を別筐体に設けてもよい。また、他の一例として、情報処理装置10に含まれる、少なくとも一部の構成が、情報処理装置10とは異なる外部装置に設けられていてもよい。
また、上記では、音声入力に対する応答内容を示す音声出力と連動して、表示情報を提示する場合の一例について説明した。しかしながら、応答内容に含まれる各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応する当該音声出力とは異なる他の情報が提示されれば、当該他の情報の種別や数は特に限定されない。
具体的な一例として、情報処理装置10は、各機能を示す語句それぞれの音声出力に同期して、当該機能を示す表示情報の提示に加えて、当該機能を示す音響情報(例えば、効果音)をあわせて提示してもよい。
また、他の一例として、各機能に対応する語句それぞれの音声出力に同期して、LED(Light Emitting Diode)等の発光部を発光させてもよい。この場合には、情報処理装置10は、各機能に対応する語句の音声出力に同期して、当該機能に応じた発光回数または発光パターンで、発光部を発光させればよい。
また、各機能に対応する語句の音声出力に同期して提示されれば、当該音声出力と連動して提示される情報は、表示情報のような視覚的情報や、音声情報や音響情報のような聴覚的情報には限定されず、触覚、嗅覚、または味覚を刺激する情報であってもよい。具体的な一例として、情報処理装置10は、各機能に対応する語句の音声出力に同期して、ユーザが保持するコントローラ等に内蔵されたアクチュエータを振動させることで、触覚的な情報を提示してもよい。この場合には、情報処理装置10は、各機能に対応する語句の音声出力に同期して、当該機能に応じた振動パターンで、アクチュエータを振動させればよい。
また、情報処理装置10は、音声出力に同期して、対応する表示情報と音響情報とを出力する等、複数種類の情報を組み合わせて提示してもよい。また、情報処理装置10は、音声出力に同期して、対応する表示情報の出力を制御する際に、当該表示情報の出力がより強調されるように、他の表示情報の出力を制御してもよい。具体的な一例として、情報処理装置10は、ユーザからの音声入力の待ち受け時に表示面に表示されている表示情報をアニメーション表示させていたとする。この場合には、情報処理装置10、ユーザからの音声入力に対する応答時に、音声出力に対応する表示情報がより強調されるように、当該表示情報をアニメーション表示させる際に、他の表示情報のアニメーションを停止してもよい。
<3.処理>
次に、図7を参照して、本実施形態に係る情報処理装置10の一連の動作について説明する。図7は、本実施形態に係る情報処理装置10の一連の動作の一例を示したフローチャートである。
(ステップS11)
入力情報解析部101は、集音部41から逐次出力される、当該集音部41が集音したユーザUaの音声入力を取得する。入力情報解析部101は、取得した音声入力に対して音声認識技術に基づく解析処理を施すことで、当該音声入力を文字情報に変換する。
また、入力情報解析部101は、音声入力が変換された文字情報に対して、字句解析や構文解析を施すことで、当該文字情報に含まれる各単語や、当該単語間の関係(例えば、係り関係)が識別可能に提示されたデータ(例えば、構文木)に構造化する。
そして、入力情報解析部101は、字句解析や構文解析により文字情報が構造化された、入力情報に基づく構造化データを、応答情報生成部103に出力する。なお、このとき、入力情報解析部101は、入力情報に基づく構造化データを、構文解析の結果に基づく構造化の単位ごと(例えば、文字情報に含まれる文章ごと)に、応答情報生成部103に出力してもよい。
(ステップS13)
応答情報生成部103は、入力情報に基づく構造化データを、入力情報解析部101から取得する。応答情報生成部103は、取得した当該構造化データに対して意味解析を施すことで、当該構造化データの元となる音声入力の意味内容を解析し、当該解析結に基づきユーザUaの要求内容を特定する。
そして、応答情報生成部103は、構造化データに対する意味解析の結果に基づき特定したユーザUaの要求内容と、辞書情報記憶部109に記憶された管理データd10とを照合する。これにより、応答情報生成部103は、特定したユーザUaの要求内容に関連付けられた、対応機能d15と応答内容d17とを取得する。
応答情報生成部103は、特定した要求内容に関連付けられた対応機能d15を、処理実行部105に実行させ、当該対応機能d15の処理結果を、当該処理実行部105から取得する。
応答情報生成部103は、取得した応答内容d17に対して、処理実行部105から通知された対応機能d15の処理結果を埋め込むことで、ユーザUaの要求内容d13に対する応答内容d20として確定させる。なお、特定した要求内容に対して対応機能d15が関連付けられていない場合には、応答情報生成部103は、取得した応答内容d17を、ユーザUaの要求内容d13に対する応答内容d20として確定させればよい。
具体的な一例として、応答情報生成部103は、ユーザUaの「何ができるの?」という発話に基づく入力情報が示す要求内容に対して、図6に示すように、「時計、天気予報、家族カレンダーです」という応答内容d20を特定する。
(ステップS15)
次いで、応答情報生成部103は、特定した応答内容d20に対して、当該応答内容d20の音声出力とあわせて提示する他の情報の出力を制御するための制御情報を、応答内容d20中の対応する語句に関連付けて埋め込むことで、応答情報d30を生成する。
例えば、図6に示す例では、応答情報生成部103は、応答内容d20中の「時計」という語句d31の直後に、「時計」機能に対応した表示情報v11を提示するための制御情報d32を挿入することで、語句d31と制御情報d32とを関連付けている。同様に、応答情報生成部103は、「天気予報」という語句d33の直後に、「天気予報」機能に対応した表示情報v13を提示するための制御情報d34を挿入することで、語句d33と制御情報d34とを関連付けている。また、応答情報生成部103は、「家族カレンダー」という語句d35の直後に、「家族カレンダー」機能に対応した表示情報v15を提示するための制御情報d36を挿入することで、語句d35と制御情報d36とを関連付けている。
以上のようにして、応答情報生成部103は、特定した要求内容に対して応答するための応答情報d30を生成し、生成した応答情報d30を応答制御部111に出力する。
(ステップS20)
応答制御部111は、応答情報生成部103から応答情報d30を取得し、取得した応答情報d30に基づき、情報処理装置10から要求元であるユーザUaに対する応答に係る動作を制御する。そこで、以降では、図8を参照しながら、図7においてステップS20で示された、応答制御部111による制御に基づく応答処理の流れの一例について説明する。図8は、本実施形態に係る情報処理装置10の応答処理の流れの一例を示したフローチャートである。
(ステップS201、S203)
応答制御部111は、取得した応答情報d30の内容を先頭から逐次読み出し、読み出した情報の種別に応じて、後述する音声合成部115、または、表示制御部117の動作を制御する。具体的には、応答制御部111は、応答情報d30の内容を、制御情報(タグ情報)が検出されるまで読み出す。
(ステップS203)
応答制御部111は、制御情報が検出されるまでに読み出した情報(語句)を(ステップS203、NO)、ユーザUaに対して音声出力として提示する応答内容を示す情報として、音声合成部115に出力する。
(ステップS205)
音声合成部115は、ユーザUaに対して音声出力として提示する応答内容を示す情報(例えば、文字情報)を、応答制御部111から取得する。音声合成部115は、取得した応答内容を示す情報から、例えば、音声合成技術に基づき、当該応答内容を発声している音声信号を作成する。
そして、音声合成部115は、応答制御部111による制御に基づき、当該応答制御部111に指定されたタイミングで、生成した音声信号を音響出力部51に音声出力させる。
(ステップS203、S207)
また、応答制御部111は、制御情報を検出すると(ステップS203、YES)、当該制御情報が、要素が空の完結タグ否かを確認する(ステップS207)。
(ステップS207、S213)
検出した制御情報が完結タグの場合には(ステップS207、YES)、応答制御部111は、当該制御情報の種別(例えば、タグ情報の種別)や、属性情報として指定された内容に基づき、制御対象となる表示情報や、当該表示情報を提示するための制御内容を特定する。
具体的な一例として、応答制御部111は、制御情報の種別に基づき、表示情報の表示態様(例えば、フェードインするように表示させる態様)を特定する。また、応答制御部111は、属性情報に基づき、表示対象となる表示情報(例えば、「時計」機能を示す表示情報v11)や、当該表示態様の細かい制御内容(例えば、フェードインするように表示させる期間)を特定する。
そして、応答制御部111は、検出した制御情報に基づき特定した表示情報や、当該表示情報を提示するための制御内容に応じて、表示制御部117の動作を制御することで、音声出力とあわせて提示する表示情報の出力を制御する。
(ステップS207、S209)
また、検出した制御情報が完結タグでない場合には(ステップS207、NO)、応答制御部111は、当該制御情報が開始タグか否かを確認する(ステップS209)。
(ステップS211)
検出した制御情報が開始タグの場合には、応答制御部111は、当該開始タグの以降に埋め込まれた、当該開始タグに対応する終了タグを検出する。そして、応答制御部111は、当該制御情報の種別や、属性情報として指定された内容に加えて、開始タグと終了タグとで囲まれた要素(即ち、音声出力として提示する応答内容を示す語句)の長さに応じて、制御対象となる表示情報や、当該表示情報を提示するための制御内容を特定する。
具体的な一例として、応答制御部111は、開始タグと終了タグとで囲まれた語句の長さに応じて、表示情報の表示を制御する期間を決定してもよい。このような構成により、例えば、応答制御部111は、「時計」という語句が音声出力される期間に同期して、「時計」機能に対応する表示情報v11がフェードインするように制御することも可能となる。なお、本態様については、別途実施例として後述する。
そして、応答制御部111は、検出した制御情報に基づき特定した表示情報や、当該表示情報を提示するための制御内容に応じて、表示制御部117の動作を制御することで、音声出力とあわせて提示する表示情報の出力を制御する。
なお、検出した制御情報が開始タグではない場合、即ち、終了タグの場合には(ステップS209、NO)、応答制御部111は、当該制御情報を制御の対象としなくてもよい。これは、応答制御部111が、終了タグの検出前に、当該終了タグに対応する開始タグを検出した際に、対応する表示情報の出力の制御を既に実行しているためである。
(ステップS215)
応答制御部111は、以上の処理を、応答情報d30の終端が検出されるまで継続する(ステップS215、NO)。そして、応答制御部111は、応答情報d30の終端の検出に基づき(ステップS215、YES)、当該応答情報d30に基づく一連の制御を終了する。
以上、図7及び図8を参照して、本実施形態に係る情報処理装置10の一連の処理の流れの一例について説明した。
<4.実施例>
次に、本実施形態に係る情報処理装置10の実施例について説明する。
[4.1.実施例1:表示情報の提示方法の一例]
まず、実施例1として、音声出力と連動して表示情報を提示する場合の、当該表示情報の提示方法の一例について、応答情報の一例とあわせて説明する。
例えば、図9は、実施例1に係る情報処理装置10による情報の提示方法の一例について説明するための説明図である。図3を参照して前述した例では、情報処理装置10は、音声出力される語句の内容に限らず、対応する表示情報の表示態様を制御する期間(例えば、フェードインさせる期間)を明示的に指定していた。これに対して、図9に示した、実施例1に係る情報処理装置10は、機能に対応した語句が音声出力される期間に同期して、当該機能に対応する表示情報の表示態様を制御する。
図9に示す例は、図3に示す例と同様に、ユーザUaの「何ができるの?」という音声入力に対して、情報処理装置10が、「時計、天気予報、家族カレンダーです」という音声出力に基づき応答する場合の一例を示している。
図9に示すように、実施例1に係る情報処理装置10は、参照符号t21で示されたタイミングで「時計」の機能を示す語句c211の音声出力と、当該「時計」の機能を示す表示情報v11の表示面内へのフェードインとを開始する。そして、情報処理装置10は、「時計」の機能を示す語句c211の音声出力の完了するタイミングt22に同期するように、表示情報v11の表示面内へのフェードインを完了させる。即ち、本実施形態に係る情報処理装置10は、「時計」の機能を示す語句c211が音声出力される期間に同期して、当該「時計」の機能を示す表示情報v11の表示面内にフェードインするように、当該表示情報v11の表示を制御する。
次いで、情報処理装置10は、参照符号t23で示されたタイミングで「天気予報」の機能を示す語句c213の音声出力と、当該「天気予報」の機能を示す表示情報v13の表示面内へのフェードインとを開始する。そして、情報処理装置10は、「天気予報」の機能を示す語句c213の音声出力の完了するタイミングt24に同期するように、表示情報v13の表示面内へのフェードインを完了させる。即ち、本実施形態に係る情報処理装置10は、「天気予報」の機能を示す語句c213が音声出力される期間に同期して、当該「天気予報」の機能を示す表示情報v13の表示面内にフェードインするように、当該表示情報v13の表示を制御する。
同様に、情報処理装置10は、参照符号t25で示されたタイミングで「家族カレンダー」の機能を示す語句c215の音声出力と、当該「家族カレンダー」の機能を示す表示情報v15の表示面内へのフェードインとを開始する。そして、情報処理装置10は、「家族カレンダー」の機能を示す語句c215の音声出力の完了するタイミングt26に同期するように、表示情報v15の表示面内へのフェードインを完了させる。即ち、本実施形態に係る情報処理装置10は、「家族カレンダー」の機能を示す語句c215が音声出力される期間に同期して、当該「家族カレンダー」の機能を示す表示情報v15の表示面内にフェードインするように、当該表示情報v15の表示を制御する。
そして、情報処理装置10は、「家族カレンダー」の機能を示す語句c215の音声出力と、当該「家族カレンダー」の機能を示す表示情報v15の出力とが完了したタイミングt17で、助動詞「です」を示す語句c217の音声出力を行う。以上をもって、実施例1に係る情報処理装置10は、ユーザUaの「何ができるの?」という音声入力に対する一連の応答を終了する。
次に、図10を参照して、実施例1に係る情報処理装置10が、図9に示すように各機能に対応する語句が音声出力される期間に同期して、当該機能に対応する表示情報の出力を制御する場合の応答情報と、当該応答情報に基づく動作の一例について説明する。図10は、実施例1に係る応答情報の一例について説明するための説明図であり、図9に示す例における応答情報について示している。
図10において、参照符号d40は、「時計、天気予報、家族カレンダーです」という応答内容d20に対して、表示情報v11〜v15を提示するための制御情報が埋め込まれた応答情報の一例を示している。
応答情報d30における、「時計」、「、天気予報」、「、家族カレンダー」、「です」で示された各語句d42、d44、d46、及びd47は、応答として音声出力される情報、即ち、応答内容d20中の各語句を示している。
また、参照符号d411、d413、d431、d433、d451、及び、d453は、表示情報v11〜v15の提示を制御するための制御情報の一例である。なお、制御情報d411、d431、及びd451は、開始タグとして構成された制御情報に相当する。また、制御情報d413、d433、及びd453は、開始タグとして構成された制御情報d411、d431、及びd453の終了タグをそれぞれ示している。
例えば、制御情報d411及びd413は、「時計」を示す語句d42が音声出力される期間に同期して、「時計」を示す表示情報v11が表示面内にフェードインするように、当該表示情報v11の表示を制御するための制御情報の一例を示している。即ち、図10に示す例では、「時計」を示す語句d42を囲むように制御情報d411及びd413を挿入することで、当該制御情報d411及びd413により、語句d42が音声出力される期間を示している。
同様に、制御情報d431及びd433は、「天気予報」を示す語句d44が音声出力される期間に同期して、「天気予報」を示す表示情報v13が表示面内にフェードインするように、当該表示情報v13の表示を制御するための制御情報の一例を示している。また、制御情報d451及びd453は、「家族カレンダー」を示す語句d46が音声出力される期間に同期して、「家族カレンダー」を示す表示情報v15が表示面内にフェードインするように、当該表示情報v15の表示を制御するための制御情報の一例を示している。
次に、図10に示した応答情報d40に基づく、応答制御部111による応答処理の一例について説明する。
応答制御部111は、前述した実施形態と同様に、応答情報d40の内容を先頭から逐次読み出し、読み出した情報の種別に応じて、音声合成部115、または、表示制御部117の動作を制御する。
例えば、応答制御部111は、開始タグとして構成された制御情報d411を検出した場合には、当該制御情報d411に対応する終了タグ、即ち、制御情報d413を探索する。そして、応答制御部111は、制御情報d411(開始タグ)と制御情報d413(終了タグ)とで囲まれた語句、即ち、「時計」を示す語句d42の長さに基づき、「clock_icon」で示された表示情報v11の表示を制御する期間を算出する。
なお、開始タグ及び終了タグで囲まれた語句の長さと、表示情報の表示を制御する期間の長さとの対応関係については、事前の実験等に基づきあらかじめ算出して制御データを生成し、当該制御データを、応答制御部111が読み出し可能な位置に記憶させておけばよい。これにより、応答制御部111は、当該制御データに基づき、開始タグ及び終了タグで囲まれた語句の長さに応じた期間を算出することが可能となる。
そして、応答制御部111は、制御情報d411の内容と、制御情報d411及びd413に基づき算出した期間とに基づき、表示情報v11が画面内にフェードインするように、表示制御部117に出力させる。また、応答制御部111は、制御情報d411に次いで、「時計」を示す語句d42を読み出して音声合成部115に出力し、当該語句d41に対応する音声情報を音声合成部115に出力させる。
このような構成により、応答制御部111は、「時計」を示す語句d42が音声出力される期間に同期して、当該「時計」を示す表示情報v11が画面内にフェードインするように、当該表示情報v11の表示を制御することが可能となる。
なお、上記に示す制御は、制御情報d431及びd433と、制御情報d451及びd453とについても同様である。即ち、応答制御部111は、制御情報d431及びd433に基づき、「天気予報」を示す語句d44が音声出力される期間に同期して、当該「天気予報」を示す表示情報v13が画面内にフェードインするように、当該表示情報v13の表示を制御する。同様に、応答制御部111は、制御情報d451及びd453に基づき、「家族カレンダー」を示す語句d46が音声出力される期間に同期して、当該「家族カレンダー」を示す表示情報v15が画面内にフェードインするように、当該表示情報v15の表示を制御する。
以上、図9及び図10を参照して説明したように、実施例1に係る情報処理装置10に依れば、機能に対応した語句が音声出力される期間に同期して、当該機能に対応する表示情報の表示態様を制御することが可能となる。
[4.2.実施例2:表示情報の提示方法の一例]
前述した実施形態及び実施例では、情報処理装置10が、各機能に対応する語句の音声出力に同期して、当該機能に対応する表示情報が表示面内にフェードインするように表示態様を制御する例について説明した。一方で、当該音声出力に同期して他の情報(例えば、表示情報)の出力が制御されれば、当該他の情報を出力するための態様は、必ずしも、前述した実施形態及び実施例に示した方法には限定されない。
そこで、以下に実施例2として、図11及び図12を参照しながら、音声出力と連動して表示情報を提示する場合の、当該表示情報の提示方法の他の一例について説明する。図11は、実施例2に係る情報処理装置10による情報の提示方法の一例について説明するための説明図である。また、図12は、実施例2に係る応答情報の一例について説明するための説明図であり、図11に示す例における応答情報について示している。
図11に示す例は、図3及び図9に示す例と同様に、ユーザUaの「何ができるの?」という音声入力に対して、情報処理装置10が、「時計、天気予報、家族カレンダーです」という音声出力に基づき応答する場合の一例を示している。一方で、図11に示す例では、「時計」、「天気予報」、及び「家族カレンダー」のそれぞれに対応する表示情報v11〜v15が、あらかじめ表示されている点で、図3及び図9に示す例と異なる。
図11に示すように、実施例2に係る情報処理装置10は、参照符号t31で示されたタイミングで「時計」の機能を示す語句c211の音声出力を開始し、当該音声出力の開始に同期して、表示情報v11が拡大されるように表示制御(以降では、「拡大表示」と記載する場合がある)を開始する。このとき、情報処理装置10は、タイミングt11からあらかじめ設定された期間(例えば、300[ms])の経過後に、表示情報v11の拡大表示が完了するように、当該表示情報v11の出力を制御する。
なお、図11において、タイミングt31〜t32までの期間が、表示情報v11の拡大表示を開始してから完了するまでの期間に相当する。即ち、タイミングt32では、表示情報v11は、拡大表示されていることとなる。なお、以降では、拡大表示された表示情報v11を、拡大前の表示情報v11と区別するために、「表示情報v11’」と記載する場合がある。
次いで、情報処理装置10は、参照符号t33で示されたタイミングで「天気予報」の機能を示す語句c213の音声出力を開始する。このとき、情報処理装置10は、当該音声出力の開始に同期して、表示情報v13の拡大表示と、表示情報v11’を拡大前の大きさに縮小させる表示制御(以降では、「縮小表示」と記載する場合がある)とを開始する。また、情報処理装置10は、タイミングt33からあらかじめ設定された期間(例えば、300[ms])の経過後に、表示情報v13の拡大表示と表示情報v11’の縮小表示とが完了するように、当該表示情報v13及び表示情報v11’の出力を制御する。
なお、図11において、タイミングt33〜t34までの期間が、表示情報v13の拡大表示と表示情報v11’の縮小表示とを開始してから完了するまでの期間に相当する。即ち、タイミングt34では、表示情報v13は拡大表示され、表示情報v11’は拡大前の大きさに縮小表示されている(即ち、表示情報v11が表示されている)こととなる。なお、以降では、拡大表示された表示情報v13を、拡大前の表示情報v13と区別するために、「表示情報v13’」と記載する場合がある。
同様に、情報処理装置10は、参照符号t35で示されたタイミングで「家族カレンダー」の機能を示す語句c215の音声出力を開始する。このとき、情報処理装置10は、当該音声出力の開始に同期して、表示情報v15の拡大表示と、表示情報v13’の縮小表示とを開始する。また、情報処理装置10は、タイミングt35からあらかじめ設定された期間(例えば、300[ms])の経過後に、表示情報v15の拡大表示と表示情報v13’の縮小表示とが完了するように、当該表示情報v15及び表示情報v13’の出力を制御する。
なお、図11において、タイミングt35〜t36までの期間が、表示情報v15の拡大表示と表示情報v13’の縮小表示とを開始してから完了するまでの期間に相当する。即ち、タイミングt16では、表示情報v15は拡大表示され、表示情報v13’は拡大前の大きさに縮小表示されている(即ち、表示情報v13が表示されている)こととなる。なお、以降では、拡大表示された表示情報v15を、拡大前の表示情報v15と区別するために、「表示情報v15’」と記載する場合がある。
そして、情報処理装置10は、一連の表示情報v11、v13、及びv15の出力の完了後のタイミングt17で、音声出力が完了していない残りの語句、即ち、助動詞「です」を示す語句c217の音声出力を行う。以上をもって、情報処理装置10は、ユーザUaの「何ができるの?」という音声入力に対する一連の応答を終了する。
次に、図12を参照して、実施例2に係る情報処理装置10が、図11に示すように各機能に対応する語句が音声出力される期間に同期して、当該機能に対応する表示情報の出力を制御する場合の応答情報と、当該応答情報に基づく動作の一例について説明する。
図10において、参照符号d50は、「時計、天気予報、家族カレンダーです」という応答内容d20に対して、表示情報v11〜v15を提示するための制御情報が埋め込まれた応答情報の一例を示している。
応答情報d50における、「時計」、「、天気予報」、「、家族カレンダー」、「です」で示された各語句d51、d53、d55、及びd57は、応答として音声出力される情報、即ち、応答内容d20中の各語句を示している。
また、参照符号d52、d541、d542、d561、及びd562は、表示情報v11〜v15の提示を制御するための制御情報の一例である
例えば、制御情報d52、d541、及びd561で示された「anim_expand」タグは、「item」属性で指定された表示情報を拡大表示させるための制御情報に相当する。なお、図12に示す例では、「anim_expand」タグに対して、「duration」属性として、拡大表示させる期間を指定している。
また、制御情報d542及びd562で示された「anim_shrink」タグは、「item」属性で指定された表示情報を縮小表示させるための制御情報に相当する。なお、図12に示す例では、「anim_shrink」タグに対して、「duration」属性として、縮小表示させる期間を指定している。
次に、図12に示した応答情報d50に基づく、応答制御部111による応答処理の一例について説明する。
応答制御部111は、前述した実施形態と同様に、応答情報d40の内容を先頭から逐次読み出し、読み出した情報の種別に応じて、音声合成部115、または、表示制御部117の動作を制御する。
図12に示す例では、応答制御部111は、まず、「時計」という語句d51を読み出し、当該語句d51の直後に挿入された制御情報d52を検出することとなる。
このとき、応答制御部111は、読み出した「時計」という語句d51を音声合成部115に出力し、当該語句d51に対応する音声情報を音声合成部115に出力させる。また、応答制御部111は、検出された制御情報d52の内容に基づき、「clock_icon」で示された表示情報v11が、「300ms」で拡大表示されるように、表示制御部117に当該表示情報v11の出力を制御させる。
次いで、応答制御部111は、「、天気予報」という語句d53を読み出し、当該語句d33の直後に挿入された制御情報d541及びd542を検出することとなる。
この場合には、応答制御部111は、読み出した「、天気予報」という語句d53を音声合成部115に出力し、当該語句d53に対応する音声情報を音声合成部115に出力させる。また、応答制御部111は、検出された制御情報d541の内容に基づき、「clock_icon」で示された表示情報v11が、「300ms」で縮小表示されるように、表示制御部117に当該表示情報v11の出力を制御させる。この場合には、制御情報d52に基づき拡大表示された表示情報v11(即ち、表示情報v11’)が、「300ms」で拡大前の大きさに縮小表示されることとなる。また、応答制御部111は、検出された制御情報d542の内容に基づき、「weather_icon」で示された表示情報v13が、「300ms」で拡大表示されるように、表示制御部117に当該表示情報v13の出力を制御させる。
以下、同様にして、応答制御部111は、「、家族カレンダー」という語句d55を読み出し、当該語句d35の直後に挿入された制御情報d561及びd562を検出する。
この場合には、応答制御部111は、読み出した「、家族カレンダー」という語句d55を音声合成部115に出力し、当該語句d55に対応する音声情報を音声合成部115に出力させる。また、応答制御部111は、検出された制御情報d561の内容に基づき、「weather_icon」で示された表示情報v13が、「300ms」で縮小表示されるように、表示制御部117に当該表示情報v13の出力を制御させる。この場合には、制御情報d542に基づき拡大表示された表示情報v13(即ち、表示情報v13’)が、「300ms」で拡大前の大きさに縮小表示されることとなる。また、応答制御部111は、検出された制御情報d562の内容に基づき、「calendar_icon」で示された表示情報v15が、「300ms」で拡大表示されるように、表示制御部117に当該表示情報v15の出力を制御させる。
最後に、応答制御部111は、「です」という語句d57を読み出し、当該語句d57の読み出し後に、応答情報d50の終端を検出する。
この場合には、応答制御部111は、読み出した「です」という語句d57を音声合成部115に出力し、当該語句d57に対応する音声情報を音声合成部115に出力させる。そして、応答制御部111は、応答情報d50の終端の検出に基づき、当該応答情報d50に基づく一連の制御を終了する。
以上、図11及び図12を参照して説明したように、実施例2として説明したように、情報処理装置10は、機能に対応した語句の音声出力に同期して、当該機能に対応する表示情報が拡大表示されるように、当該表示情報の表示態様を制御してもよい。
なお、上記に示した例は、あくまで一例であり、応答内容中の各機能に対応する語句の音声出力と同期して、当該音声出力とは異なる他の情報の出力が制御されれば、当該他の情報を出力するための態様が限定されないことは前述した通りである。また、音声出力に同期して、当該音声出力とは異なる他の情報がユーザに提示されれば、当該他の情報の種別も限定されない。
例えば、図13は、応答情報に定義され得る制御情報の一例を示した図である。図13に示す例では、音声出力と同期して、「表示情報のアニメーション表示」、「LEDの点滅または点灯」、及び「音響出力(例えば、効果音)によるサウンドフィードバック」を制御するための制御情報の例を示している。
具体的な一例として、表示情報をアニメーション表示させる場合の制御の一例として、「表示/非表示」、「フェードイン/フェードアウト」、「拡大/縮小」、「点滅」、「移動」、及び「スクロール」等が挙げられる。また、各制御を実行するためのパラメータとして、「時間」や「回数」等を指定できるようにしてもよい。
また、LEDを点滅または点灯させる場合の制御の一例として、「点灯/消灯」、「フェードイン/フェードアウト」、及び「点滅」等が挙げられる。また、各制御を実行するためのパラメータとして、「色」、「時間」、「回数」等を指定できるようにしてもよい。
また、音響出力によるサウンドフィードバックの制御の一例として、「再生」、「停止」、「フェードイン/フェードアウト」及び「音量の設定」等が挙げられる。また、各制御を実行するためのパラメータとして、「サウンド(出力対象)」、「時間」、「回数」等を指定できるようにしてもよい。
もちろん、図13に示したような、所謂、視覚的情報や聴覚的情報の制御に限らず、例えば、触覚、嗅覚、または味覚を刺激する情報を制御してもよいことは、前述した通りである。また、表示情報等の視覚的情報の制御についても、アニメーション表示に限らず、例えば、表示情報の色や形などの表示態様を変化させる(例えば、切り替える)ように制御してもよい。
[4.3.実施例3:処理内容に応じて情報の提示を制御する場合の一例]
次に、実施例3として、図14〜図17を参照して、ユーザからの音声入力に基づく処理内容に応じて、音声情報や、当該音声情報に同期して出力する他の情報(例えば、表示情報)の出力を制御する場合の一例について説明する。
例えば、図14は、ユーザUaからの「明日、午後5時から歯医者」という音声入力c30を受けて、情報処理装置10が、「家族カレンダー」機能に音声入力c30に基づく予定を登録し、当該ユーザUaに対して応答した場合の一例を示している。
このとき、情報処理装置10は、音声入力c30の解析結果に基づき対応機能として「家族カレンダー」機能を特定し、「家族カレンダー」機能の画面v31を、表示面上に表示させる。
そして、情報処理装置10は、「予定を登録しました」という音声情報c31を出力し、当該音声情報c31の出力に同期して、「午後5時」から「歯医者」という予定を示した表示情報v311を、画面v31上の対応する位置に提示する。このとき、情報処理装置10は、表示情報v311をアニメーション表示させることで、新たな予定が登録されたことをユーザUaに提示してもよい。
また、図14に示す例では、音声情報c31及び表示情報v311に基づく応答後に、ユーザUaに対して、「名前も登録できますよ」という音声情報c33により、登録した予定に対して情報が追加できる旨を提示してもよい。この場合には、情報処理装置10は、音声情報c33の出力に同期して、当該音声情報c33によりユーザUaに対して提示した処理内容、即ち、「名前の登録」に対応する表示情報v33の表示態様を制御してもよい。
具体的な一例として、情報処理装置10は、音声情報c33の出力に同期して、名前を登録するための表示情報v33が、所定回数だけ点滅するように、当該表示情報v33の表示を制御することで、提示した処理内容と表示情報との対応関係をユーザに提示してもよい。
ここで、図15を参照して、図14に示すように、情報処理装置10が応答する場合の応答情報の一例について説明する。図15は、実施例3に係る応答情報d60の一例について説明するための説明図である。
図15に示すように、応答情報d60は、「予定を登録しました」、「名前も登録できますよ」という応答内容に対して、表示情報v311及びv33の出力を制御するための制御情報d62及びd65が埋め込まれている。
なお、応答情報d60における、「予定を」、「登録しました」、「名前も」、「登録できますよ」で示された各語句d61、d63、d64、及びd66は、応答として音声出力される情報、即ち、応答内容中の各語句を示している。
また、制御情報d62は、「item」属性に「schedule」として指定された「家族カレンダー」の表示画面v31に対して、「title」属性に指定された予定を、「time」属性に指定された時間に相当する位置に、フェードインするように表示させるための制御情報である。なお、図15に示す例では、制御情報d62には、「duration」属性として、「title」で指定された予定をフェードインさせる期間が指定されている。
また、制御情報d65は、「item」属性に「name_form」として指定された名前を登録するための表示情報v33を、「repeat」属性で指定された回数だけ点滅するように表示させるための制御情報である。
なお、応答情報d60に基づく応答処理の内容は、前述した実施形態及び各実施例と同様のため、詳細な説明は省略する。
また、図15に示すように、情報処理装置10は、ユーザUaに対して追加で情報の入力が可能であることを提示した場合には、実行した「家族カレンダー」機能を終了させずに、当該「家族カレンダー」機能に対する処理を継続させてもよい。
次いで、図16を参照して、図15で示した「名前も登録できますよ」という応答を受けて、ユーザUaが新たな音声入力を行った場合の動作の一例について説明する。図16は、実施例3に係る情報処理装置10の動作の一例について説明するための説明図である。図16に示す例では、情報処理装置10が、「名前も登録できますよ」という応答を受けてユーザUaが発話した「名前はJunkiで登録して」という音声入力c34を受けた場合の一例を示している。
このとき、情報処理装置10は、取得した音声入力c34を解析する際に、実行中の機能の状態を加味することで、応答内容を特定する範囲を絞り込んでもよい。具体的な一例として、図16に示す例の場合には、情報処理装置10は、取得した音声入力c34を、実行中の「家族カレンダー」機能に対する入力情報として認識し、対応する応答内容を特定してもよい。
音声入力c24を取得すると、情報処理装置10は、当該音声入力c24を解析することで、「名前」として登録する内容が「Junki」であることを認識し、「Junki」を事前に登録した「歯医者」の予定に関連付ける。
そして、情報処理装置10は、「はい、登録しました」という音声情報c35を出力し、当該音声情報c35の出力に同期して、図15に示す表示情報v33に対して、「Junki」という名前が入力された表示情報v35を提示する。このとき、情報処理装置10は、表示情報v33中に「Junki」という名前がフェードインするように表示情報v35を表示させることで、ユーザUaの指定した名前「Junki」が登録されたことを当該ユーザUaに提示してもよい。
ここで、図17を参照して、図16に示すように、情報処理装置10が応答する場合の応答情報の一例について説明する。図17は、実施例3に係る応答情報d70の一例について説明するための説明図である。
図17に示すように、応答情報d70は、「はい、登録しました」という応答内容に対して、表示情報v35の出力を制御するための制御情報d72が埋め込まれている。
なお、応答情報d70における、「はい」、「登録しました」で示された各語句d71及びd73は、応答として音声出力される情報、即ち、応答内容中の各語句を示している。
また、制御情報d72は、「item」属性に「name_form」として指定された表示情報v33に対して、「name」属性に指定された名前「Junki」が、フェードインするように表示されるように、表示情報v35表示させるための制御情報である。なお、図17に示す例では、制御情報d72には、「duration」属性として、「name」で指定された名前をフェードインさせる期間が指定されている。
なお、応答情報d70に基づく応答処理の内容は、前述した実施形態及び各実施例と同様のため、詳細な説明は省略する。
以上、実施例3として、図14〜図17を参照して説明したように、情報処理装置10は、ユーザからの音声入力に基づく処理内容に応じて、音声情報や、当該音声情報に同期して出力する他の情報(例えば、表示情報)の出力を制御してもよい。
[4.4.実施例4:複数のユーザに対する情報の提示方法の一例]
次に、実施例4として、複数のユーザを対象として、各ユーザの音声入力に対して応答を行う場合の、情報処理装置10の構成や動作の一例について説明する。
例えば、図18は、実施例4に係る情報処理装置10の一例について説明するための図である。図18に示す例では、情報処理装置10が、音声情報を出力するための音響出力部51として、複数の音響出力部51a及び51が設けられている。そして、情報処理装置10は、各ユーザからの音声入力に対して音声出力を行う場合に、複数の音響出力部51a及び51bのうち、当該音声入力の発声元であるユーザの近傍に位置する音響出力部を介して音声出力を行う。また、このとき、情報処理装置10は、当該音声出力に連動して、当該ユーザの近傍に表示情報を表示させる。
例えば、図18に示す例では、ユーザUaの「ロンドンは何時?」という音声入力c40aに対して、情報処理装置10は、「午後5時です」という音声情報c41aを、当該ユーザUaの近傍に位置する音響出力部51aから出力する。また、このとき情報処理装置10は、音声情報c41aの出力に同期して、表示面内における、ユーザUaの近傍に相当する位置に、「時計」機能に対応した表示情報v41がフェードインするように、当該表示情報v41の表示を制御している。
また、ユーザUbの「明日の天気は?」という音声入力c40bに対して、情報処理装置10は、「雨です」という音声情報c41bを、当該ユーザUbの近傍に位置する音響出力部51bから出力する。また、このとき情報処理装置10は、音声情報c41bの出力に同期して、表示面内における、ユーザUbの近傍に相当する位置に、「天気予報」機能に対応した表示情報v43がフェードインするように、当該表示情報v43の表示を制御している。
この場合には、情報処理装置10は、例えば、「ロンドンは何時?」という音声入力c40aの到来方向から、当該音声入力c40の発声元、即ち、ユーザUaの位置を推定する。また、情報処理装置10は、「ロンドンは何時?」という音声入力c40aを解析し、当該解析結果に基づき、当該音声入力c40に対して応答を行うための応答情報を生成する。そして、情報処理装置10は、生成した応答情報に対して、ユーザUaの位置の推定結果を関連付ける。
また、情報処理装置10は、生成された応答情報に基づき、ユーザUaの音声入力c40aに対して応答を行う場合には、当該応答情報に関連付けられたユーザUaの位置の推定結果に基づき、音声情報及び表示情報の出力先を特定する。具体的には、情報処理装置10は、ユーザUaの位置の推定結果に基づき、音声入力c40aに対する応答である「午後5時です」という音声情報c41aを出力する音響出力部51aを特定する。また、情報処理装置10は、ユーザUaの位置の推定結果に基づき、「時計」機能に対応した表示情報v41を表示させる位置として、表示面中における、当該情報処理装置10に対して当該ユーザUaが存在する方向の領域を特定する。
なお、ユーザUbの「明日の天気は?」という音声入力c40bに対して応答する場合についても、情報処理装置10は、同様の方法で当該ユーザUbの位置を推定し、当該推定結果に基づき、音声情報c41bと表示情報v43の出力を制御すればよい。
また、図19は、実施例1に係る情報処理装置10の他の一例について説明するための図である。図19に示す例では、情報処理装置10は、音声入力の発声元であるユーザを識別し、識別されたユーザに応じて、当該音声入力に対する応答として出力される音声情報及び表示情報の出力態様を制御する。
例えば、図19に示す例では、情報処理装置10は、音声出力に基づき応答を行う際に、応答先のユーザに応じて、音声出力の口調、トーン、声色等を変更している。具体的な一例として、情報処理装置10は、大人であるユーザUa及びUbと、子供であるユーザUcとのそれぞれに対して音声出力の口調を変更している。
また、情報処理装置10は、音声出力される応答内容に、認識したユーザを想起させる情報(例えば、名前)を含めてもよい。具体的な一例として、図19に示す例では、情報処理装置10は、ユーザUcに対する応答として、「ゆうたくん、朝ごはんの時間だよ」というように、ユーザUcの名前を含めた応答内容を生成し、当該応答内容を示す音声情報c55cを出力している。
また、情報処理装置10は、表示情報を出力する際に、応答先のユーザに応じて、当該表示情報の表示態様を変更してもよい。例えば、図19に示す例では、情報処理装置10は、応答先のユーザに応じて、表示情報が表示面内にフェードインする方向を切り替えている。
具体的には、情報処理装置10は、ユーザUaに対する応答として、音声情報c51aの出力に同期して、表示情報v51aが、右から左に向けて表示面内にフェードインするように、当該表示情報v51aの出力を制御している。また、情報処理装置10は、ユーザUbに対する応答として、音声情報c53bの出力に同期して、表示情報v53bが、左から右に向けて表示面内にフェードインするように、当該表示情報v53bの出力を制御している。同様に、情報処理装置10は、ユーザUcに対する応答として、音声情報c55cの出力に同期して、表示情報v55cが、下から上に向けて表示面内にフェードインするように、当該表示情報v53bの出力を制御している。
この場合には、情報処理装置10は、各ユーザからの音声入力を、所謂、話者認識技術に基づき、当該音声入力から声紋などの特徴を抽出し、抽出した特徴を、あらかじめ記憶したユーザごとの特徴と照合することで、ユーザを識別すればよい。そして、情報処理装置10は、音声入力の解析結果に基づき応答情報を生成し、生成した応答情報に、当該音声入力に基づき識別したユーザの情報を関連付ける。
また、情報処理装置10は、生成された応答情報に基づき応答処理を行う場合には、当該応答情報に関連付けられたユーザの情報に基づき、応答先のユーザを認識し、認識したユーザに応じて、音声情報及び表示情報の出力態様を制御すればよい。
以上、実施例4として説明したように、情報処理装置10は、複数のユーザを対象とする場合に、各ユーザの位置や各ユーザの識別結果に基づき、音声入力に対して出力する音声情報や、当該音声情報と同期して出力する他の情報の出力態様を制御してもよい。
[4.5.実施例5:ユーザの割り込みに伴う情報の提示方法の一例]
次に、実施例5として、図20を参照して、情報処理装置10が、ユーザからの音声入力に対する応答中に、当該ユーザが割り込んで新たな音声入力を行った場合の、当該情報処理装置10による情報の提示方法の一例について説明する。図20は、実施例5に係る情報処理装置10の一例について説明するための図である。
図20に示す例では、情報処理装置10は、まず、ユーザUaから、「明日の予定は?」という音声入力c60を受け付けたものとする。このとき、情報処理装置10は、音声入力c60に対する応答として、当該日程の午前の予定を示す「明日の朝7時から・・・」という音声情報c61を出力し、当該音声情報c61の出力に同期して、表示情報v61を表示面内にフェードインさせる。
これに対して、情報処理装置10が、音声情報c61及び表示情報v61の出力中に、ユーザUaが、「あ、午後の予定教えて」という、該当日程の午後の予定の提示を要求する音声入力c62を行ったものとする。
この音声入力c62を受けて、情報処理装置10は、実行中の音声情報c61及び表示情報v61の出力をキャンセルする。このとき、情報処理装置10は、表示面内にフェードイン中の表示情報v61が、表示面外にフェードアウトするように、当該表示情報v61の出力を制御する。このような表示制御により、情報処理装置10は、実行中だった音声情報c61及び表示情報v61の出力がキャンセルされたことを、ユーザUaに対して提示する。
そして、情報処理装置10は、新たに、当該日程の午後の予定を示す「はい、午後は1時半から会議です」という音声情報c63を出力し、当該音声情報c63の出力に同期して、表示情報v63を表示面内にフェードインさせる。
なお、実行中の情報出力をキャンセルし、新たに情報を提示する場合には、情報処理装置10は、新たに情報を提示したことを示すように、当該情報の出力を制御してもよい。具体的な一例として、情報処理装置10は、新たに表示させる表示情報v63を、表示情報v61と同じ位置に表示させてもよいし、当該表示情報v61とは異なる位置に表示させてもよい。
また、情報処理装置10は、キャンセルに伴い新たに音声情報を出力する場合には、キャンセル前とは異なる言い回しで、新たな音声情報を出力してもよい。具体的な一例として、図20に示す例では、情報処理装置10は、音声入力c62の「午後」という語句が強調されるように、助詞の使い方を変更している。また、情報処理装置10は、「はい」や「承りました」等のように、新たな音声入力を受け付けたことを示す語句を、応答内容に含めてもよい。
なお、情報処理装置10は、音声入力が受け付けられたタイミングと、音声入力に対する応答処理の処理シーケンスとを監視することで、応答中にユーザが割り込んで新たな音声入力を行ったことを認識できることは言うまでもない。
以上、実施例5として説明したように、情報処理装置10は、ユーザからの音声入力に対する応答中に、当該ユーザが割り込んで新たな音声入力を行った場合に、実行中の応答がキャンセルされたことをユーザに提示してもよい。また、情報処理装置10は、応答のキャンセルに伴い、新たに応答を行う場合には、応答として出力される音声情報や、当該音声情報に同期して出力される他の情報(例えば、表示情報)を、キャンセル前とは異なる態様で提示してもよい。
<5.ハードウェア構成>
次に、図21を参照して、本開示の各実施形態に係る情報処理装置10のハードウェア構成の一例について説明する。図21は、本開示の実施形態に係る情報処理装置10のハードウェア構成の一例を示した図である。
図21に示すように、本実施形態に係る情報処理装置10は、プロセッサ901と、メモリ903と、ストレージ905と、スピーカ911と、通信デバイス913と、バス915とを含む。また、情報処理装置10は、操作デバイス907と、表示デバイス909とを含んでもよい。
プロセッサ901は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)又はSoC(System on Chip)であってよく、情報処理装置10の様々な処理を実行する。プロセッサ901は、例えば、各種演算処理を実行するための電子回路により構成することが可能である。なお、前述した入力情報解析部101、応答情報生成部103、処理実行部105、応答制御部111、音声合成部115、及び表示制御部117は、プロセッサ901により実現され得る。
メモリ903は、RAM(Random Access Memory)及びROM(Read Only Memory)を含み、プロセッサ901により実行されるプログラム及びデータを記憶する。ストレージ905は、半導体メモリ又はハードディスクなどの記憶媒体を含み得る。例えば、前述した辞書情報記憶部109は、メモリ903及びストレージ905の少なくともいずれか、もしくは、双方の組み合わせにより構成され得る。
操作デバイス907は、ユーザが所望の操作を行うための入力信号を生成する機能を有する。操作デバイス907は、例えばボタン及びスイッチなどユーザが情報を入力するための入力部と、ユーザによる入力に基づいて入力信号を生成し、プロセッサ901に供給する入力制御回路などから構成されてよい。
表示デバイス909は、出力デバイスの一例であり、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイなどのデバイスであってよい。この場合には、表示デバイス909は、画面を表示することにより、ユーザに対して所定の情報を報知することができる。なお、前述した表示部53は、表示デバイス909により実現され得る。
スピーカ911は、音響信号や音声信号を出力するための出力デバイスの一例である。前述した音響出力部51は、スピーカ911により実現され得る。
通信デバイス913は、情報処理装置10が備える通信手段であり、ネットワークを介して外部装置と通信する。通信デバイス913は、有線または無線用の通信インタフェースである。通信デバイス913を、無線通信インタフェースとして構成する場合には、当該通信デバイス913は、通信アンテナ、RF(Radio Frequency)回路、ベースバンドプロセッサなどを含んでもよい。
通信デバイス913は、外部装置から受信した信号に各種の信号処理を行う機能を有し、受信したアナログ信号から生成したデジタル信号をプロセッサ901に供給することが可能である。
バス915は、プロセッサ901、メモリ903、ストレージ905、操作デバイス907、表示デバイス909、スピーカ911、及び通信デバイス913を相互に接続する。バス915は、複数の種類のバスを含んでもよい。
また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置10が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。
<6.まとめ>
以上、説明したように、本実施形態に係る情報処理装置10は、ユーザの音声入力に対して、音声出力と当該音声出力とは異なる他の情報(例えば、表示情報)に基づく応答により、ユーザとの間で対話を行う、所謂、対話型のインタフェースを備える。また、このような構成のもと、本実施形態に係る情報処理装置10は、各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応付けられた他の情報の出力を制御する。これにより、ユーザは、音声出力された機能に対応する他の情報を直感的に認識することが可能となる。
なお、上記では、情報処理装置10が、各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応付けられた他の情報の出力を制御する例について説明したが、当該音声出力と当該他の出力とは、必ずしも完全に同期していなければならないとは限らない。例えば、ユーザが情報処理装置10を操作する環境や、情報処理装置10の利用形態に応じて、当該音声出力と当該他の出力との対応関係が認識可能な範囲で、一方の出力に対して他方の出力を遅延させてもよい。また、この場合には、情報処理装置10は、音声出力される情報の長さや、他の情報の種別に応じて、遅延量(換言すると、出力タイミング)を制御できるようにしてもよい。
また、上記では、情報処理装置10への情報の入力手段として、ユーザが発話により情報を入力する音声入力を適用した場合を例に説明したが、ユーザが情報処理装置10に対して情報を入力する手段は、必ずしも音声入力には限定されない。
例えば、情報処理装置10は、キーボード、マウス、タッチパネル等の入力デバイスを介してユーザ入力を取得してもよい。具体的な一例として、情報処理装置10は、ユーザによるキー操作やマウス操作によるカーソル移動や選択対象の決定、タッチパネルに対するタップ操作等の操作を受けて、表示部に表示された表示情報のうち当該ユーザに選択された表示情報を認識してもよい。
また、他の一例として、情報処理装置10は、ユーザがジェスチャ入力により情報を入力するためのインタフェースを提供してもよい。具体的な一例として、情報処理装置10は、撮像部により撮像されたユーザの画像を基に、当該ユーザの動作(ジェスチャ)を認識し、認識した動作に応じてユーザがジェスチャ入力に基づき選択した情報(例えば、表示部に表示された表示情報)を認識してもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御する制御部、
を備える、情報処理装置。
(2)
前記他の情報は表示部に表示される表示情報である、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記一連の語句の音声出力を制御する、前記(2)に記載の情報処理装置
(4)
前記制御部は、音声合成部の音声合成処理に基づいて前記一連の語句の音声出力を制御する、前記(3)に記載の情報処理装置。
(5)
前記音声合成処理は、ユーザの音声入力に基づいて実行される処理である、前記(4)に記載の情報処理装置。
(6)
前記一連の語句は、前記ユーザの音声入力が示す意味内容に応じて生成される、前記(5)に記載の情報処理装置
(7)
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた表示情報の出力を制御する、前記(4)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報を変化させる、前記(7)に記載の情報処理装置。
(9)
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報の表示および非表示を制御する、前記(7)に記載の情報処理装置。
(10)
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた音響情報の出力を制御する、前記(7)に記載の情報処理装置。
(11)
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に応じた発行回数または発光パターンで、発光部の発光を制御する、前記(7)に記載の情報処理装置。
(12)
前記一連の語句は、前記機能に応じた処理内容を示す語句を含み、
前記制御部は、当該一連の語句のうち、前記処理内容を示す語句の音声出力に同期して、当該処理内容に応じた当該音声出力とは異なる他の情報の出力を制御する、前記(1)〜(11)のいずれか一項に記載の情報処理装置。
(13)
前記制御部は、前記機能に対応付けられた語句が音声出力されるタイミングに同期して、当該機能に対応付けられた前記他の情報の出力を制御する、前記(7)〜(11)のいずれか一項に記載の情報処理装置。
(14)
前記制御部は、前記機能に対応付けられた語句が音声出力される期間に同期して、当該機能に対応付けられた前記他の情報の出力を制御する、前記(7)〜(11)のいずれか一項に記載の情報処理装置。
(15)
前記制御部は、前記機能に対応付けられた語句に対して関連付けられた制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記制御部は、前記制御情報は、前記機能に対応付けられた語句を示す文字情報に関連付けられたタグ情報として、前記一連の語句を示す文字情報中に埋め込まれた前記制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、前記(15)に記載の情報処理装置。
(17)
前記表示情報は、ユーザの選択操作の選択対象で有る、前記(2)〜(11)のいずれか一項に記載の情報処理装置。
(18)
プロセッサが、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、
を含む、情報処理方法。
(19)
コンピュータに、
所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、
を実行させる、プログラム。
10 情報処理装置
101 入力情報解析部
103 応答情報生成部
105 処理実行部
109 辞書情報記憶部
111 応答制御部
115 音声合成部
117 表示制御部
41 集音部
51 音響出力部
53 表示部

Claims (18)

  1. ユーザの音声入力の到来方向に基づいて、前記ユーザの位置を推定するとともに、前記音声入力の解析結果に基づいて、応答情報を生成する生成部と、
    生成された前記応答情報に対応する、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力と、該音声出力とは異なる他の情報の出力とを、推定した前記ユーザの位置に対応する領域に向けて出力するように制御する制御部
    を備える、情報処理装置。
  2. 前記他の情報は表示部に表示される表示情報である、請求項1に記載の情報処理装置。
  3. 前記制御部は、音声合成部の音声合成処理に基づいて前記一連の語句の音声出力を制御する、請求項に記載の情報処理装置。
  4. 前記音声合成処理は、前記ユーザの前記音声入力に基づいて実行される処理である、請求項に記載の情報処理装置。
  5. 前記一連の語句は、前記ユーザの前記音声入力が示す意味内容に応じて生成される、請求項に記載の情報処理装置。
  6. 前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた表示情報の出力を制御する、請求項のいずれか一項に記載の情報処理装置。
  7. 前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報を変化させる、請求項に記載の情報処理装置。
  8. 前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報の表示および非表示を制御する、請求項に記載の情報処理装置。
  9. 前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた音響情報の出力を制御する、請求項に記載の情報処理装置。
  10. 前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に応じた発光回数または発光パターンで、発光部の発光を制御する、請求項に記載の情報処理装置。
  11. 前記一連の語句は、前記機能に応じた処理内容を示す語句を含み、
    前記制御部は、当該一連の語句のうち、前記処理内容を示す語句の音声出力に同期して、当該処理内容に応じた当該音声出力とは異なる他の情報の出力を、推定した前記ユーザの位置に対応する領域に向けて出力するように制御する、請求項1〜10のいずれか一項に記載の情報処理装置。
  12. 前記制御部は、前記機能に対応付けられた語句が音声出力されるタイミングに同期して、当該機能に対応付けられた前記他の情報の出力を制御する、請求項10のいずれか一項に記載の情報処理装置。
  13. 前記制御部は、前記機能に対応付けられた語句が音声出力される期間に同期して、当該機能に対応付けられた前記他の情報の出力を制御する、請求項10のいずれか一項に記載の情報処理装置。
  14. 前記制御部は、前記機能に対応付けられた語句に対して関連付けられた制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、請求項1〜13のいずれか一項に記載の情報処理装置。
  15. 前記制御部は、前記機能に対応付けられた語句を示す文字情報に関連付けられたタグ情報として前記一連の語句を示す文字情報中に埋め込まれた前記制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、請求項14に記載の情報処理装置。
  16. 前記表示情報は、ユーザの選択操作の選択対象で有る、請求項2〜10のいずれか一項に記載の情報処理装置。
  17. プロセッサが、ユーザの音声入力の到来方向に基づいて、前記ユーザの位置を推定するとともに、前記音声入力の解析結果に基づいて、応答情報を生成することと、
    生成された前記応答情報に対応する、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力と、該音声出力とは異なる他の情報の出力とを、推定した前記ユーザの位置に対応する領域に向けて出力するように制御すること
    を含む、情報処理方法。
  18. コンピュータに、
    ユーザの音声入力の到来方向に基づいて、前記ユーザの位置を推定するとともに、前記音声入力の解析結果に基づいて、応答情報を生成することと、
    生成された前記応答情報に対応する、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力と、該音声出力とは異なる他の情報の出力とを、推定した前記ユーザの位置に対応する領域に向けて出力するように制御すること
    を実行させる、プログラム。
JP2016525735A 2014-06-03 2015-04-21 情報処理装置、情報処理方法、及びプログラム Active JP6642424B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014114682 2014-06-03
JP2014114682 2014-06-03
PCT/JP2015/062148 WO2015186445A1 (ja) 2014-06-03 2015-04-21 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015186445A1 JPWO2015186445A1 (ja) 2017-04-20
JP6642424B2 true JP6642424B2 (ja) 2020-02-05

Family

ID=54766525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016525735A Active JP6642424B2 (ja) 2014-06-03 2015-04-21 情報処理装置、情報処理方法、及びプログラム

Country Status (5)

Country Link
US (1) US10657959B2 (ja)
EP (1) EP3154052A4 (ja)
JP (1) JP6642424B2 (ja)
CN (1) CN106463110A (ja)
WO (1) WO2015186445A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984387B2 (en) 2011-06-28 2021-04-20 Microsoft Technology Licensing, Llc Automatic task extraction and calendar entry
CN105848374A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种灯光控制***及方法
US10361981B2 (en) * 2015-05-15 2019-07-23 Microsoft Technology Licensing, Llc Automatic extraction of commitments and requests from communications and content
US10140770B2 (en) * 2016-03-24 2018-11-27 Toyota Jidosha Kabushiki Kaisha Three dimensional heads-up display unit including visual context for voice commands
CN108279839A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 基于语音的交互方法、装置、电子设备及操作***
JP6642808B2 (ja) * 2017-03-29 2020-02-12 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
CN107168677A (zh) * 2017-03-30 2017-09-15 联想(北京)有限公司 音频处理方法及装置、电子设备、存储介质
JP6785451B2 (ja) * 2017-11-07 2020-11-18 パナソニックIpマネジメント株式会社 情報提示システム、移動体、情報提示方法及びプログラム
JP2019109780A (ja) * 2017-12-19 2019-07-04 ヤフー株式会社 情報提供装置、情報提供方法、および情報提供プログラム
WO2019136248A1 (en) * 2018-01-05 2019-07-11 Google Llc Selecting content to render on display of assistant device
CN110459211B (zh) 2018-05-07 2023-06-23 阿里巴巴集团控股有限公司 人机对话方法、客户端、电子设备及存储介质
CN110874201B (zh) * 2018-08-29 2023-06-23 斑马智行网络(香港)有限公司 交互方法、设备、存储介质和操作***
JP7156138B2 (ja) * 2019-03-29 2022-10-19 富士通株式会社 情報処理装置、光アクション生成方法、および光アクション生成プログラム
US20240153488A1 (en) * 2021-03-17 2024-05-09 Pioneer Corporation Sound output control device, sound output control method, and sound output control program
CN113971954B (zh) * 2021-12-23 2022-07-12 广州小鹏汽车科技有限公司 语音交互方法及装置、车辆及存储介质

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434527B1 (en) * 1999-05-17 2002-08-13 Microsoft Corporation Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue
US7406657B1 (en) * 2000-09-22 2008-07-29 International Business Machines Corporation Audible presentation and verbal interaction of HTML-like form constructs
KR100549482B1 (ko) * 2001-03-22 2006-02-08 캐논 가부시끼가이샤 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체
JP4789227B2 (ja) * 2001-04-04 2011-10-12 Necディスプレイソリューションズ株式会社 音声認識機能を内蔵した映像表示装置
JP2003108171A (ja) 2001-09-27 2003-04-11 Clarion Co Ltd 文書読み上げ装置
JP2003308142A (ja) 2002-04-17 2003-10-31 Seiko Epson Corp メッセージ処理システム、音声信号処理システム、メッセージ処理設備、メッセージ送信端末、音声信号処理設備、メッセージ処理プログラム、音声信号処理プログラム、設備用プログラム、端末用プログラム及びメッセージのデータ構造、並びにメッセージ処理方法、音声信号処理方法及びメッセージ生成方法
AU2003260926A1 (en) * 2002-10-23 2004-05-13 Koninklijke Philips Electronics N.V. Controlling an apparatus based on speech
US20040260438A1 (en) * 2003-06-17 2004-12-23 Chernetsky Victor V. Synchronous voice user interface/graphical user interface
JP2005056170A (ja) * 2003-08-05 2005-03-03 Matsushita Electric Ind Co Ltd 対話型操作支援システム
US20050048992A1 (en) * 2003-08-28 2005-03-03 Alcatel Multimode voice/screen simultaneous communication device
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
JP4716083B2 (ja) * 2004-07-27 2011-07-06 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JPWO2006075369A1 (ja) 2005-01-13 2008-06-12 富士通株式会社 電子機器および制御プログラム
JP4572686B2 (ja) * 2005-01-14 2010-11-04 パナソニック電工株式会社 静電容量型半導体物理量センサ及びその製造方法
JP2006235671A (ja) 2005-02-22 2006-09-07 Norinaga Tsukiji 会話装置及びコンピュータ読み取り可能な記録媒体。
JP2007213176A (ja) * 2006-02-08 2007-08-23 Sony Corp 情報処理装置および方法、並びにプログラム
CN1870778A (zh) * 2006-06-13 2006-11-29 深圳市杰特电信控股有限公司 一种手机内信息的定时发送方法
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4801623B2 (ja) * 2006-09-14 2011-10-26 シャープ株式会社 電子機器および有効な機能の選択方法
US7921214B2 (en) * 2006-12-19 2011-04-05 International Business Machines Corporation Switching between modalities in a speech application environment extended for interactive text exchanges
JP5380777B2 (ja) * 2007-02-21 2014-01-08 ヤマハ株式会社 音声会議装置
US8046226B2 (en) * 2008-01-18 2011-10-25 Cyberpulse, L.L.C. System and methods for reporting
JP5182178B2 (ja) * 2009-03-18 2013-04-10 ソニー株式会社 情報処理装置及び情報処理方法
US20120265535A1 (en) * 2009-09-07 2012-10-18 Donald Ray Bryant-Rich Personal voice operated reminder system
KR100986619B1 (ko) * 2010-03-12 2010-10-08 이상훈 이동통신단말기를 이용한 멀티입출력장치 및 방법
JP2011253374A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP5685177B2 (ja) * 2011-12-12 2015-03-18 本田技研工業株式会社 情報伝達システム
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
JP6133564B2 (ja) * 2012-10-05 2017-05-24 京セラ株式会社 電子機器、制御方法、及び制御プログラム
US20140122619A1 (en) * 2012-10-26 2014-05-01 Xiaojiang Duan Chatbot system and method with interactive chat log
US9172747B2 (en) * 2013-02-25 2015-10-27 Artificial Solutions Iberia SL System and methods for virtual assistant networks
CN105246743B (zh) * 2013-05-21 2017-03-29 三菱电机株式会社 语音识别装置、识别结果显示装置及显示方法
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム
KR102160767B1 (ko) * 2013-06-20 2020-09-29 삼성전자주식회사 제스처를 감지하여 기능을 제어하는 휴대 단말 및 방법
US20160004322A1 (en) * 2013-07-05 2016-01-07 Clarion Co., Ltd. Information Processing Device
KR20150024188A (ko) * 2013-08-26 2015-03-06 삼성전자주식회사 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치
EP3084714A4 (en) * 2013-12-20 2017-08-02 Robert Bosch GmbH System and method for dialog-enabled context-dependent and user-centric content presentation
US10389876B2 (en) * 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20170329766A1 (en) * 2014-12-09 2017-11-16 Sony Corporation Information processing apparatus, control method, and program
US10679608B2 (en) * 2016-12-30 2020-06-09 Google Llc Conversation-aware proactive notifications for a voice interface device

Also Published As

Publication number Publication date
WO2015186445A1 (ja) 2015-12-10
EP3154052A1 (en) 2017-04-12
JPWO2015186445A1 (ja) 2017-04-20
US10657959B2 (en) 2020-05-19
CN106463110A (zh) 2017-02-22
US20170047064A1 (en) 2017-02-16
EP3154052A4 (en) 2018-01-10

Similar Documents

Publication Publication Date Title
JP6642424B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
US11735182B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
US11347801B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
CN113330512A (zh) 根据选择的建议向自动化助理补充语音输入
JP7487276B2 (ja) 検出された口運動および/または注視に基づく自動化アシスタントの適応
EP3564948A1 (en) Information processing device and information processing method
US11200893B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
US20120260176A1 (en) Gesture-activated input using audio recognition
JP2018106702A (ja) 自然言語バーチャルアシスタントでの全二重発話処理
JP2023015054A (ja) 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード
KR20150012577A (ko) 음성 인식 기능을 지원하는 전자 기기의 음성 입력 제어 방법 및 장치 장치
CN112639718A (zh) 自动化助手功能的免热词调配
CN114041283A (zh) 利用事件前和事件后输入流来接洽自动化助理
CN110033776A (zh) 一种应用于屏幕设备的虚拟形象交互***与方法
KR20200124298A (ko) 원격으로 생성된 자동화된 어시스턴트 콘텐츠를 렌더링할 때 클라이언트 디바이스 지연 완화
CN116745843A (zh) 用于减少自动化助理交互中的时延的方法和***
US20230343324A1 (en) Dynamically adapting given assistant output based on a given persona assigned to an automated assistant
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
CN110543290B (zh) 多模态响应
Foster et al. Multimodal generation in the COMIC dialogue system
US20230343336A1 (en) Multi-modal interaction between users, automated assistants, and other computing services

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180306

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191216

R151 Written notification of patent or utility model registration

Ref document number: 6642424

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151