JPWO2018235607A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JPWO2018235607A1
JPWO2018235607A1 JP2019525358A JP2019525358A JPWO2018235607A1 JP WO2018235607 A1 JPWO2018235607 A1 JP WO2018235607A1 JP 2019525358 A JP2019525358 A JP 2019525358A JP 2019525358 A JP2019525358 A JP 2019525358A JP WO2018235607 A1 JPWO2018235607 A1 JP WO2018235607A1
Authority
JP
Japan
Prior art keywords
character
user
information processing
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019525358A
Other languages
English (en)
Inventor
栗屋 志伸
志伸 栗屋
鶴田 泰士
泰士 鶴田
加奈 西川
加奈 西川
浩明 小川
浩明 小川
淳己 大村
淳己 大村
東山 恵祐
恵祐 東山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2018235607A1 publication Critical patent/JPWO2018235607A1/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、ユーザが愛着を感じることができるキャラクタを用いて情報を提示することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。本技術の情報処理装置は、コンテキストを取得し、異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタをコンテキストに基づいて選択する。選択された所定のキャラクタに設定された属性は、メインキャラクタに設定された属性にマージされ、マージ後の属性により規定される特徴を有するメインキャラクタを用いて、ユーザに対する情報の提示が行われる。本技術は、音声UIによって操作するエージェント機器に適用することができる。

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、ユーザが愛着を感じることができるキャラクタを用いて情報を提示することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
近年、対話型のエージェントに関する各種の技術開発が進められている。
対話型のエージェントには、特定のキャラクタを登場させて、その特定のキャラクタを介して、各種のサービスをユーザに提供するものがある。また、サービス毎に用意されたキャラクタを1つのサービスから呼び出し、それぞれのサービスを、それぞれ異なるキャラクタを介してユーザに提供するものがある。
特開2007-334251号公報
前者の対話型のエージェントの場合、特定のキャラクタに対して愛着を感じることができるが、キャラクタの人格像等を維持しながら、様々なサービスにキャラクタを対応させることが難しい。ユーザの様々なニーズに応えてサービスを拡大する場合、開発に時間がかかる。
また、後者の対話型のエージェントの場合、サービス毎に異なるキャラクタがユーザの対応をすることになるため、ユーザからするとキャラクタに愛着を感じにくい。
本技術はこのような状況に鑑みてなされたものであり、ユーザが愛着を感じることができるキャラクタを用いて情報を提示することができるようにするものである。
本技術の一側面の情報処理装置は、コンテキストを取得する取得部と、異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタを前記コンテキストに基づいて選択するキャラクタ選択部とを備える。
メインのキャラクタとして選択されたメインキャラクタを管理する管理部と、前記メインキャラクタを用いて、前記ユーザに対する情報の提示を行う出力制御部とをさらに設けることができる。
前記キャラクタ選択部には、前記所定のキャラクタに設定された前記属性を、前記メインキャラクタに設定された前記属性にマージさせ、前記出力制御部には、マージ後の前記属性により規定される特徴を有する前記メインキャラクタを用いて、前記ユーザに対する情報の提示を行わせることができる。
前記キャラクタ選択部には、前記メインキャラクタと前記所定のキャラクタに設定された複数種類の前記属性を、同じ種類同士、所定の重み付けを行ってマージさせることができる。
前記複数のキャラクタと前記メインキャラクタのそれぞれの特徴を、発話表現、発話内容、声色、および外観のうちの少なくともいずれかの前記属性により規定されるものとすることができる。
前記出力制御部には、前記発話内容のルールに関する情報に基づいて、または、対話コーパスに基づく学習を行うことによって得られた前記発話内容のモデル情報に基づいて、前記ユーザに対する情報の提示を行わせることができる。
前記取得部には、前記ユーザにより入力されたテキストデータ、または前記ユーザの発話音声データを解析させ、前記コンテキストを取得させることができる。
前記キャラクタ選択部には、外部の装置が管理する前記複数のキャラクタの中から、前記所定のキャラクタを選択させることができる。
前記複数のキャラクタを管理するキャラクタ管理部をさらに設けることができる。この場合、前記キャラクタ選択部には、前記キャラクタ管理部が管理する前記複数のキャラクタの中から、前記所定のキャラクタを選択させることができる。
前記取得部には、前記ユーザによる選択内容を前記コンテキストとして取得させ、前記キャラクタ選択部には、前記ユーザによる選択内容に応じて前記所定のキャラクタを選択させることができる。
前記取得部には、前記ユーザに提示する内容を前記コンテキストとして取得させ、前記キャラクタ選択部には、前記ユーザに提示する内容に応じて前記所定のキャラクタを選択させることができる。
前記取得部には、前記ユーザのプロファイルを前記コンテキストとして取得させ、前記キャラクタ選択部には、前記ユーザのプロファイルに応じて前記所定のキャラクタを選択させることができる。
前記取得部には、前記ユーザが利用するサービスを前記コンテキストとして取得させ、前記キャラクタ選択部には、前記サービスに応じて前記所定のキャラクタを選択させることができる。
前記取得部には、前記ユーザの顔画像の解析結果、前記ユーザの発話音声の解析結果、および、前記ユーザの発話内容の解析結果のうちの少なくともいずれかに基づいて認識した前記ユーザの感情を前記コンテキストとして取得させ、前記キャラクタ選択部には、前記ユーザの感情に応じて前記所定のキャラクタを選択させることができる。
マージ後の前記属性により規定される特徴を有する前記メインキャラクタに対する前記ユーザの嗜好を学習する嗜好学習部をさらに設けることができる。この場合、前記管理部には、前記ユーザの嗜好の学習結果に基づいて、前記メインキャラクタに設定された前記属性を調整させることができる。
前記キャラクタ選択部には、前記所定のキャラクタとして複数のキャラクタを選択させ、選択した複数の前記所定のキャラクタのそれぞれに設定された前記属性を、前記メインキャラクタに設定された前記属性にマージさせることができる。
本技術の一側面においては、コンテキストが取得され、異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタが前記コンテキストに基づいて選択される。
本技術によれば、ユーザが愛着を感じることができるキャラクタを用いて情報を提示することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係るエージェントシステムの構成例を示す図である。 発話の例を示す図である。 外部キャラクタの例を示す図である。 キャラクタのマージの例を示す図である。 マージ後の内部キャラクタによる発話の例を示す図である。 外部キャラクタの例を示す図である。 キャラクタの特徴を規定する属性情報の例を示す図である。 エージェント装置のハードウェア構成例を示すブロック図である。 エージェント装置と外部キャラクタ管理装置の機能構成例を示すブロック図である。 外部キャラクタDBの例を示す図である。 エージェントシステムの一連の処理について説明するシーケンス図である。 エージェントシステムの一連の処理について説明する、図11に続くシーケンス図である。 エージェント装置の他の構成例を示すブロック図である。 エージェントシステムの他の構成例を示す図である。 エージェントシステムのさらに他の構成例を示す図である。 エージェント装置と外部キャラクタ管理装置の他の機能構成例を示すブロック図である。 キャラクタの特徴を規定する他の属性情報の例を示す図である。 エージェント装置の他のハードウェア構成例を示すブロック図である。 コンピュータの構成例を示すブロック図である。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.キャラクタのマージについて
2.エージェントシステムの各装置の構成
3.エージェントシステムの各装置の動作
4.変形例
<1.キャラクタのマージについて>
図1は、本技術の一実施形態に係るエージェントシステムの構成例を示す図である。
図1に示すように、エージェントシステムは、エージェント装置1と外部キャラクタ管理装置2が、インターネットなどのネットワーク11を介して接続されることによって構成される。
図1の例においては、エージェント装置1は、ユーザが携帯可能なスマートフォンとされている。エージェント装置1が、タブレット端末、腕時計型のウエアラブル端末などの、ディスプレイを有する他の携帯端末によって構成されるようにしてもよいし、ディスプレイを有していない装置によって構成されるようにしてもよい。
エージェント装置1は、ユーザのスケジュールやユーザ宛に送られてきた電子メールなどの各種の情報を音声によって提示したり、ユーザの発話音声を検出し、発話の内容に応じた情報を音声によって提示したりする、いわゆる対話型のエージェント機能を有する。エージェント機能による情報の提示は、システム側が自発的に提示したり、ユーザによる問いかけに応答する形で情報を提示したりすることによって行われる。
エージェント装置1によるエージェント機能は、キャラクタを介して実現される。すなわち、エージェント装置1による情報の提示は、キャラクタがユーザにあたかも話しかけるようにして行われる。一方、ユーザの問いかけは、ユーザが、キャラクタに話しかけるようにして行われる。
図2は、キャラクタを介して行われる発話の例を示す図である。
図2の例においては、エージェント機能がエージェント装置1において実行され、キャラクタC1の外観画像がディスプレイに表示されている。以下においては、キャラクタが外観画像を有しており、ユーザがキャラクタを視覚的に認識することができる場合について説明するが、外観画像を有していない、聴覚的に認識可能なキャラクタがエージェント装置1において管理されるようにしてもよい。
吹き出し#1に示すように、ユーザが「今日こんなことあって・・・」と発話した場合、その発話音声がエージェント機能により認識される。また、言語解析が行われることによって、吹き出し#2に示すように、「すごい、すごい!」の音声がキャラクタC1の応答として出力される。「すごい、すごい!」の音声の出力は、キャラクタC1が話しかける様子を表す画像の表示とともに行われる。
すなわち、図2に示すキャラクタC1は、ユーザを褒めるような人格的な特徴を有するキャラクタである。ユーザに対する情報の提示は、提示する情報の内容によっては、例えば、ユーザを褒めるような表現の言葉で、かつ、褒めるときに使われる声色の音声で行われる。
このように、エージェント装置1によるエージェント機能は、1つのキャラクタとコミュニケーションをとるような形で実現される。エージェント装置1のユーザは、例えば、複数用意されているキャラクタの中から、好みの1つのキャラクタを予め選択する必要がある。ユーザにより選択されたキャラクタが、エージェント装置1の内部において管理される。
以下、適宜、エージェント機能の実行時に現れ、メインのキャラクタとして、ユーザとコミュニケーションをとる1つのキャラクタを内部キャラクタという。また、適宜、内部キャラクタ以外のキャラクタを外部キャラクタという。図1の外部キャラクタ管理装置2は、複数の外部キャラクタを管理するサーバとして機能する装置である。
エージェント装置1において管理される内部キャラクタ、外部キャラクタ管理装置2において管理される外部キャラクタは、それぞれ異なる特徴を有している。キャラクタの特徴は、後述するように複数種類の属性によって規定される。
図1の説明に戻り、エージェント装置1は、外部キャラクタ管理装置2が管理する外部キャラクタの中から、コンテキストに応じた外部キャラクタを選択し、選択した外部キャラクタの情報を取得する。コンテキストには、ユーザのプロファイル、ユーザの発話内容に基づいて特定されたユーザの感情、ユーザに提示する情報の内容、騒音などの環境、時間帯などの各種の状況が含まれる。
エージェント装置1は、外部キャラクタ管理装置2から取得した情報を用いることによって、選択した外部キャラクタの特徴を内部キャラクタの特徴にマージし、新たな特徴を有する内部キャラクタを生成する。キャラクタの特徴のマージは、キャラクタの特徴を規定する属性をマージすることによって行われる。マージが行われた場合、ユーザに対する情報の提示は、外部キャラクタの特徴を取り込んだ内部キャラクタを介して行われる。
図3は、外部キャラクタの例を示す図である。
図3のキャラクタC2は、図1のキャラクタC1とは異なる外観画像を有する外部キャラクタである。キャラクタC2は、例えば、図2の場合と同様にユーザが「今日こんなことあって・・・」と発話した場合、吹き出し#11に示すように「ふーん。。。」の音声を出力するキャラクタである。「ふーん。。。」の音声の出力は、冷淡な声色で行われる。
図3に示すキャラクタC2は、ユーザに対する反応が小さい、薄情な特徴を有する外部キャラクタである。このように、内部キャラクタとは異なる特徴を有する外部キャラクタがコンテキストに応じて選択され、特徴のマージに用いられる。
図4は、内部キャラクタの特徴と外部キャラクタの特徴のマージの例を示す図である。
外部キャラクタとしてキャラクタC2が選択された場合、内部キャラクタであるキャラクタC1が有する、ユーザを褒める特徴を規定する属性と、キャラクタC2が有する、薄情な特徴を規定する属性がマージされる。このマージによって、白抜き矢印の先に示すように、新たな特徴を有するキャラクタC1’が生成される。
図4において、キャラクタC1’の外観は、キャラクタC1とキャラクタC2を混ぜ合わせた外観になっている。発話の内容、声色などのキャラクタC1’の他の特徴についても、キャラクタC1の特徴とキャラクタC2の特徴を混ぜ合わせたものとなる。
なお、図4においては、説明の便宜上、マージの前後で内部キャラクタの外観が大きく変わっているが、実際には、マージに用いる外部キャラクタの属性については、内部キャラクタの属性と比べて低い重みが設定されて、マージが行われる。マージ前の内部キャラクタの基本的な特徴を維持しつつ、外部キャラクタの特徴を僅かに取り込んだ内部キャラクタが、マージ後の内部キャラクタとして生成される。
図5は、マージ後の内部キャラクタによる発話の例を示す図である。
図5の例においては、キャラクタC2の特徴をマージすることによって生成されたキャラクタC1’の外観画像がエージェント装置1のディスプレイに表示されている。
この状態において、図2の場合と同様にユーザが「今日こんなことあって・・・」と発話した場合、キャラクタC1’の応答として、吹き出し#21に示すように「おー。まあまあだね。」の音声が出力される。
すなわち、キャラクタC1’の応答として、キャラクタC1が返すような内容とキャラクタC2が返すような内容をマージした、ユーザを少しだけ褒めるような内容の音声が出力される。「おー。まあまあだね。」の音声の出力は、少しだけ褒めるときに使われる声色の音声で行われる。
例えば、褒める内容の応答が繰り返された結果、そのようなキャラクタC1の応答にユーザが飽きていることがコンテキストとして検出された場合、コンテキストに応じてキャラクタC2が選択され、普段とは異なる、少しだけ褒める内容の応答が行われる。
このように、エージェント装置1は、コンテキストに応じた外部キャラクタを選択し、選択した外部キャラクタの特徴をマージすることで、内部キャラクタの特徴を変化させることができる。エージェント装置1において行われる内部キャラクタの特徴の変化が、ユーザとのコミュニケーションに用いるキャラクタを切り替えることとは異なる方法で実現されることになる。
また、エージェント装置1は、特徴を変化させた内部キャラクタを介して、各種の情報を、変化をつけてユーザに提示することができる。
ユーザにとっては、応答の内容や声色などがコンテキストに応じて変化することにより、内部キャラクタに飽きを感じにくくなる。
また、マージ後のキャラクタの特徴は、マージ前のキャラクタの基本的な特徴を維持した特徴であるため、マージ後のキャラクタによる出力は、ユーザにとっては、僅かな変化として感じられるものとなる。マージの前後でキャラクタの基本的な特徴が変わらないため、ユーザは、内部キャラクタに対して愛着を持ち続けることができる。
図6は、外部キャラクタの例を示す図である。
図6のAの慰めキャラクタは、ユーザの発話に対して共感し、慰める特徴を有する外部キャラクタである。例えば、ユーザが「今日会社でしくじって」と発話した場合、図6のAの慰めキャラクタの応答として、「一度の失敗なんて気にしない」の音声が出力される。
図6のAの慰めキャラクタは、例えば、ユーザの発話から、ユーザが落ち込んでいることがコンテキストとして検出された場合に選択される。図6のAの慰めキャラクタの特徴をマージした内部キャラクタにより、マージ前より慰める内容の音声が出力される。
図6のBの怒りキャラクタは、ユーザを怒る特徴を有する外部キャラクタである。例えば、ユーザが寝坊している場合、図6のBの怒りキャラクタの応答として、「何時まで寝てんだぁ〜!」の音声が出力される。
図6のBの怒りキャラクタは、例えば、エージェント機能によって起床を促しているにもかかわらず、ユーザが寝続けていることがコンテキストとして検出された場合に選択される。図6のBの怒りキャラクタの特徴をマージした内部キャラクタにより、マージ前より怒る内容の音声が出力される。
図6のCの慰めキャラクタは、上述したキャラクタC1と同様に、ユーザを褒める特徴を有する外部キャラクタである。
図6のDの同調キャラクタは、ユーザの調子に合わせる特徴を有する外部キャラクタである。例えば、ユーザが「うちの上司ほんとひどくってさ」と発話した場合、図6のDの同調キャラクタの応答として、「そうだよね、分かる分かるぅ」の音声が出力される。
図6のDの同調キャラクタは、例えば、ユーザの発話から、ユーザがストレスを感じていることがコンテキストとして検出された場合に選択される。図6のDの同調キャラクタの特徴をマージした内部キャラクタにより、マージ前より同調する内容の音声が出力される。
このように、それぞれ特徴が異なる複数の外部キャラクタが外部キャラクタ管理装置2において管理される。
図7は、キャラクタの特徴を規定する属性情報の例を示す図である。
例えば、キャラクタの特徴は、発話表現、発話内容、声色、および外観のそれぞれの属性によって規定される。属性情報には、それらの属性を表す情報が含まれる。
発話表現は、所定の内容の発話の表現の仕方(Wording/言い回し)を表す属性である。発話音声を文字列で表現するとした場合、発話表現の属性が異なるキャラクタの発話は、内容が同じであっても、異なる文字列で表されることになる。
例えば、なにをしているのかをユーザに尋ねる内容の音声を出力する場合、あるキャラクタAの発話音声は「なにやってんだ?」となり、他のキャラクタBの発話音声は「なにをされているんですか?」となる。
発話内容は、発話の内容を表す属性である。発話内容の属性が異なるキャラクタの発話は、ユーザによる同じ発話に対して、異なる内容の発話となる。
例えば、ユーザが「今日会社で失敗して・・・」の発話を行った場合、あるキャラクタA(共感する特徴を有するキャラクタ)の発話音声は「大変だったね・・・」となり、他のキャラクタB(楽観的な特徴を有するキャラクタ)の発話音声は「気にしない気にしない」となる。また、キャラクタC(厳しい特徴を有するキャラクタ)の発話音声は「自業自得だよ」となる。
声色は、声質、周波数、イントネーションなどの、音声を構成する要素の属性である。声色の属性が異なることにより、年配の男性の声、年配の女性の声、若い男性の声、若い女性の声、こどもの声などの各種の音声が表現される。
声色の属性として、TTS(Text To Speech)のパラメータを用いることができる。TTSのパラメータには、emotion(感情、喜、怒、悲)、pitch(音の高低)、speed(話す速度)、volume(音量)などが含まれる。
外観は、キャラクタの見た目を表す属性である。外観の属性には、キャラクタの外観画像、動き方を表す情報が含まれる。
このような各種の属性を表す属性情報が各キャラクタに紐付けられ、管理される。エージェント装置1においては内部キャラクタの属性情報が管理され、外部キャラクタ管理装置2においてはそれぞれの外部キャラクタの属性情報が管理される。
このように、キャラクタの特徴を規定する属性には、声色と外観画像などの表面的な属性と、応答内容の生成に関する発話表現と発話内容などの、内部的な属性が含まれる。
キャラクタの特徴を規定する属性は、図7に示す4種類の属性に限定されるものではない。4種類以外の他の属性によってキャラクタの特徴が規定されるようにしてもよい。また、図7の4種類のうちの少なくともいずれかの属性が属性情報に含まれていればよい。例えば、外観の属性については、属性情報に含まれないようにすることが可能である。
<2.エージェントシステムの各装置の構成>
図8は、エージェント装置1のハードウェア構成例を示すブロック図である。
CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。
バス54には、マイク55、センサ56、スピーカ57、ディスプレイ58、入力部59、記憶部60、および通信部61が接続される。
マイク55は、ユーザの発話音声を検出する。
センサ56は、カメラ、加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサにより構成される。センサ56は、撮影して得られた画像を出力する。また、センサ56は、加速度、角速度、現在位置などの検出結果を表す情報を出力する。
スピーカ57は、TTSなどにより生成された音声(合成音声)を出力する。
ディスプレイ58は、LCDや有機ELディスプレイなどにより構成される。ディスプレイ58は、内部キャラクタの外観画像を含む画面などの各種の画面を表示する。
入力部59は、ディスプレイ58に重ねて設けられたタッチパネルや、エージェント装置1の筐体に設けられた各種のボタンにより構成される。入力部59は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
記憶部60は、不揮発性のメモリなどにより構成される。記憶部60は、CPU51が実行するプログラムの他に、内部キャラクタの情報、音声合成用のデータなどの各種のデータを記憶する。
通信部61は、ネットワークインタフェースなどにより構成される。通信部61は、無線や有線による通信を外部キャラクタ管理装置2との間で行う。
図9は、エージェント装置1と外部キャラクタ管理装置2の機能構成例を示すブロック図である。
図9に示すエージェント装置1の機能部のうちの少なくとも一部は、図8のCPU51により所定のプログラムが実行されることによって実現される。外部キャラクタ管理装置2の機能部のうちの少なくとも一部は、外部キャラクタ管理装置2を実現するコンピュータのCPUにより所定のプログラムが実行されることによって実現される。
エージェント装置1は、入力取得部81、入力解析部82、内部キャラクタ管理部83、キャラクタマージ部84、外部キャラクタ取得部85、応答生成部86、および応答出力部87から構成される。
入力取得部81は、マイク55により検出されたユーザの発話音声と環境音を取得する。また、入力取得部81は、センサ56を構成するカメラにより撮影された画像を取得する。入力取得部81は、取得した音声データと画像を入力解析部82に出力する。
入力解析部82は、入力取得部81から供給された音声データに対して音声認識を行い、認識した発話音声の意味解析を行うことによって、ユーザの発話の内容を特定する。入力解析部82は、特定したユーザの発話の内容を表す情報をキャラクタマージ部84に出力する。
また、入力解析部82は、入力された画像に対して画像処理を行い、ユーザの顔や周辺の状況を認識する。また、入力解析部82は、認識したユーザの顔画像を解析し、ユーザの感情を推定する。例えば、入力解析部82は、顔画像を解析することによって求められる特徴量と、感情の対応関係を表す情報を有している。入力解析部82は、ユーザの感情を表す情報をコンテキスト情報としてキャラクタマージ部84に出力する。
顔画像の解析結果だけでなく、発話音声を解析することによって特定されたユーザの声のトーンと、ユーザの発話の内容にも基づいてユーザの感情の推定が行われるようにしてもよい。顔画像の解析結果、発話音声の解析結果であるユーザの声のトーン、および、ユーザの発話の内容のうちの少なくともいずれかに基づいて、感情の推定が行われるようにすることが可能である。また、ユーザによる入力がテキスト入力である場合、ユーザにより入力されたテキストデータの意味解析が行われ、解析結果に基づいて感情が推定されるようにしてもよい。
入力解析部82からキャラクタマージ部84に対しては、環境音や周辺の画像を解析することによって特定された周辺の状況、日時、現在位置などの他の情報がコンテキスト情報に含めて供給されるようにしてもよい。
このように、入力解析部82は、ユーザの状況と周囲の状況を含むコンテキストを取得する取得部として機能する。
内部キャラクタ管理部83は、メインのキャラクタとして選択された内部キャラクタの属性情報を管理する。内部キャラクタ管理部83は、内部キャラクタの属性情報をキャラクタマージ部84に出力する。
キャラクタマージ部84は、図6を参照して説明したようにして、入力解析部82から供給されたコンテキスト情報に基づいて外部キャラクタの種類を決定する。
例えば、キャラクタマージ部84は、コンテキスト情報と、外部キャラクタの種類との対応関係を表す情報を有している。キャラクタマージ部84は、そのような対応関係を表す情報を参照し、入力解析部82から供給されたコンテキスト情報に応じた外部キャラクタの種類を選択する。キャラクタマージ部84は、外部キャラクタをコンテキストに基づいて選択する選択部として機能する。
また、キャラクタマージ部84は、決定した外部キャラクタの種類を表すキャラクタタイプを外部キャラクタ取得部85に出力し、キャラクタタイプに応じた外部キャラクタの属性情報を取得することを要求する。
キャラクタマージ部84は、外部キャラクタの属性情報が外部キャラクタ取得部85から供給された場合、内部キャラクタの特徴と外部キャラクタの特徴をマージする。上述したように、キャラクタの特徴のマージは、キャラクタの特徴を規定する属性をマージすることによって行われる。
属性のマージは、例えば、属性情報に含まれるそれぞれの属性に所定の重み付けを行い、同じ種類の属性同士、足し合わせることによって行われる。例えば、キャラクタマージ部84は、内部キャラクタのそれぞれの属性に0.9、外部キャラクタのそれぞれの属性に0.1の重みを設定し、同じ属性同士足し合わせることによって、属性のマージを行う。
内部キャラクタの発話表現に0.9、発話内容に0.5、声色に0.8、外観に0.95が設定され、外部キャラクタの発話表現に0.1、発話内容に0.5、声色に0.2、外観に0.05が設定されるといったように、属性の種類毎に異なる重みが設定されるようにしてもよい。
キャラクタマージ部84は、外部キャラクタの特徴をマージすることによって生成された、マージ後の内部キャラクタの属性情報を、ユーザの入力の解析結果とともに応答生成部86に出力する。
外部キャラクタ取得部85は、通信部61を制御し、キャラクタマージ部84から供給されたキャラクタタイプを送信することによって、外部キャラクタの属性情報の送信を外部キャラクタ管理装置2に要求する。外部キャラクタ取得部85は、外部キャラクタ管理装置2から送信され、通信部61において受信された外部キャラクタの属性情報を取得し、キャラクタマージ部84に出力する。
応答生成部86は、キャラクタマージ部84から供給されたマージ後の内部キャラクタに基づいてユーザに対する応答を生成する。例えば、応答生成部86は、ユーザの発話に応じた内容の応答を、内部キャラクタの発話内容の属性と発話表現の属性に基づいて生成する。
ここで、ユーザの発話に応じた内容の応答が、ユーザの発話の内容と応答の内容との関係をルール化したルール情報に基づいて生成されるようにしてもよいし、応答の生成に用いるための情報として用意されたモデル情報に基づいて生成されるようにしてもよい。
例えば、モデル情報は、ユーザの発話の内容を入力データ、応答の内容を出力データとするモデルとして、対話コーパスに基づく学習を行うことによって予め生成される。ルール情報またはモデル情報は、例えば、発話内容の属性と発話表現の属性の組み合わせ毎に応答生成部86に用意される。
応答生成部86は、このようにして生成した応答の内容を表すテキストデータを、内部キャラクタの声色と外観の属性とともに応答出力部87に出力する。
応答出力部87は、応答生成部86から供給されたテキストデータに応じた発話音声のデータを内部キャラクタの声色の属性に基づいて生成し、発話音声をスピーカ57から出力させる。また、応答出力部87は、内部キャラクタの外観の属性に基づいて、内部キャラクタの外観画像をディスプレイ58に表示させる。応答出力部87は、ユーザに対する情報の提示を制御する出力制御部として機能する。
一方、外部キャラクタ管理装置2は、外部キャラクタ送信部101と外部キャラクタ管理部102から構成される。
外部キャラクタ送信部101は、外部キャラクタ取得部85から送信された、外部キャラクタの要求を受信する。外部キャラクタの要求にはキャラクタタイプも含まれる。外部キャラクタ送信部101は、外部キャラクタ管理部102が管理する外部キャラクタの中から、キャラクタタイプに応じた外部キャラクタを選択し、選択した外部キャラクタの属性情報をエージェント装置1に送信する。
外部キャラクタ管理部102は、外部キャラクタのデータベースである外部キャラクタDBを管理する。外部キャラクタ管理部102は、キャラクタタイプに応じた外部キャラクタの属性情報を外部キャラクタDBから読み出し、外部キャラクタ送信部101に出力する。
図10は、外部キャラクタ管理部102が管理する外部キャラクタDBの例を示す図である。
図10に示すように、外部キャラクタDBには、それぞれのキャラクタに紐づけて、発話表現、発話内容、声色、外観のそれぞれの属性を含む属性情報が記憶されている。
<3.エージェントシステムの各装置の動作>
次に、図11および図12のフローチャートを参照して、エージェントシステムの一連の処理について説明する。
ステップS1において、エージェント装置1の入力取得部81は、ユーザの発話音声などのユーザ入力を取得する。入力取得部81においては、適宜、周辺を撮影して得られた画像なども取得される。
ステップS2において、入力取得部81は、取得したユーザ入力を入力解析部82に出力する。
ステップS11において、入力解析部82は、入力取得部81から供給されたユーザ入力を取得する。
ステップS12において、入力解析部82は、ユーザ入力に基づいて、ユーザの発話の内容の解析と、ユーザの感情を含むコンテキストの解析を行う。すなわち、音声データに対しては、音声認識や意味解析が行われることによってユーザの発話の内容が特定される。また、撮影された画像に対しては、顔画像の解析が行われ、ユーザの感情が推定される。
ステップS13において、入力解析部82は、ユーザ入力の解析結果とともに、コンテキスト情報をキャラクタマージ部84に出力する。
ステップS31において、キャラクタマージ部84は、入力解析部82から供給された情報を取得する。
ステップS32において、キャラクタマージ部84は、内部キャラクタの属性情報を内部キャラクタ管理部83に要求する。
ステップS21において、内部キャラクタ管理部83は、キャラクタマージ部84からの要求を取得する。
ステップS22において、内部キャラクタ管理部83は、管理している内部キャラクタの属性情報をキャラクタマージ部84に出力する。
ステップS33において、キャラクタマージ部84は、内部キャラクタ管理部83から供給された内部キャラクタの属性情報を取得する。
ステップS34において、キャラクタマージ部84は、コンテキスト情報に応じた外部キャラクタを選択する。
ステップS35において、キャラクタマージ部84は、キャラクタタイプを指定することによって、外部キャラクタの属性情報を取得することを外部キャラクタ取得部85に要求する。
ステップS41において、外部キャラクタ取得部85は、キャラクタマージ部84からの要求を取得する。
ステップS42において、外部キャラクタ取得部85は、キャラクタタイプを送信することによって、外部キャラクタの属性情報を外部キャラクタ管理装置2に要求する。
ステップS71において、外部キャラクタ管理装置2の外部キャラクタ送信部101は、外部キャラクタ取得部85からの要求を受信する。
ステップS72において、外部キャラクタ送信部101は、キャラクタタイプに応じた外部キャラクタの属性情報を外部キャラクタ管理部102に要求する。
ステップS81において、外部キャラクタ管理部102は、外部キャラクタ送信部101からの要求を取得する。
ステップS82において、外部キャラクタ管理部102は、キャラクタタイプに応じた外部キャラクタの属性情報を外部キャラクタDBから読み出し、外部キャラクタ送信部101に出力する。
ステップS73において、外部キャラクタ送信部101は、外部キャラクタ管理部102から供給された外部キャラクタの属性情報を取得する。
ステップS74において、外部キャラクタ送信部101は、外部キャラクタの属性情報をエージェント装置1に送信する。
ステップS43において、エージェント装置1の外部キャラクタ取得部85は、外部キャラクタ管理装置2から送信されてきた外部キャラクタの属性情報を取得する。
ステップS44(図12)において、外部キャラクタ取得部85は、外部キャラクタの属性情報をキャラクタマージ部84に出力する。
ステップS36において、キャラクタマージ部84は、外部キャラクタ取得部85から出力された外部キャラクタ情報を取得する。
ステップS37において、キャラクタマージ部84は、内部キャラクタの属性情報と外部キャラクタの属性情報をマージする。
ステップS38において、キャラクタマージ部84は、マージ後の内部キャラクタの属性情報を応答生成部86に出力し、マージキャラクタを用いた応答の生成を要求する。キャラクタマージ部84から応答生成部86に対しては、ユーザ入力の解析結果も出力される。
ステップS51において、応答生成部86は、キャラクタマージ部84からの要求を取得する。
ステップS52において、応答生成部86は、キャラクタマージ部84から供給された、マージ後の内部キャラクタの属性情報に基づいて、ユーザの入力に応じた応答内容を生成する。
ステップS53において、応答生成部86は、生成した応答内容を応答出力部87に出力する。
ステップS61において、応答出力部87は、応答生成部86から供給された応答内容を取得する。
ステップS62において、応答出力部87は、応答内容を表す発話音声をスピーカ57から出力させるとともに、内部キャラクタの外観画像をディスプレイ58に表示させ、ユーザに対して応答する。
このような一連の処理が、例えば、ユーザ入力が取得される毎に行われる。また、ユーザに対する情報の提示が、ユーザによる入力によらずに自発的に行われる場合、以上の一連の処理が、情報を提示するタイミングになる毎に行われる。
以上の処理が繰り返し行われることにより、エージェント装置1は、内部キャラクタの特徴を、コンテキストに応じて徐々に変化させることができる。徐々に変化するとしても内部キャラクタの基本的な特徴については維持されるから、ユーザは、内部キャラクタに愛着を持ちつつ、エージェント機能を利用することができる。
<4.変形例>
・変形例1
コンテキスト情報に応じて選択される外部キャラクタが1つであるものとしたが、複数であってもよい。この場合、複数の外部キャラクタのそれぞれの特徴が内部キャラクタの特徴に対してマージされることになる。
また、1つの外部キャラクタの全ての種類の属性が内部キャラクタの属性にマージされるのではなく、マージに用いられる属性は、少なくとも1種類であってもよい。
・変形例2
マージに用いる外部キャラクタの選択が、ユーザの感情などの、エージェント装置1により推定された情報に基づいて行われるものとしたが、マージに用いる外部キャラクタをユーザが自ら選択することができるようにしてもよい。
ユーザは、例えば、ディスプレイ58に表示されたボタンを操作したり、外部キャラクタの名前を呼んだりすることによって外部キャラクタの選択を行うことになる。この場合、ユーザの選択内容を表す情報がコンテキスト情報に含まれ、外部キャラクタの選択に用いられる。
・変形例3
ユーザに提示する情報の内容に応じて、マージに用いる外部キャラクタが選択されるようにしてもよい。
例えば、音声によって提示する情報の内容が、ユーザを慰めるようなものである場合、図6のAに示すような、ユーザを慰める特徴を有する外部キャラクタが選択される。また、音声によって提示する情報の内容が、ユーザを怒るようなものである場合、図6のBに示すような、ユーザを怒る特徴を有する外部キャラクタが選択される。この場合、ユーザに対して提示する情報の内容が、コンテキスト情報として用いられる。
・変形例4
ユーザのプロファイルに応じて、マージに用いる外部キャラクタが選択されるようにしてもよい。
例えば、カメラにより撮影された画像を解析することによって、ユーザが子どもであることがプロファイルとして特定された場合、大人の特徴を表す属性を有する外部キャラクタが選択される。
また、発話音声を解析することによって、ユーザが冗談を言うことがプロファイルとして特定された場合、冗談に対して突っ込みを入れるような特徴を表す属性を有する外部キャラクタが選択される。この場合、ユーザのプロファイルが、コンテキスト情報として用いられる。
このように、各種の情報をコンテキストとして用いて外部キャラクタの選択に用いることが可能である。ユーザの感情、選択内容、プロファイル、提示する情報の内容などの情報のうちの少なくとも2つ以上の情報の組み合わせに基づいて、外部キャラクタの選択が行われるようにしてもよい。
・変形例5
図13は、エージェント装置1の他の構成例を示すブロック図である。
図13に示す構成のうち、図9を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。後述する図16においても同様である。
図13に示すエージェント装置1の構成は、外部キャラクタ管理部88が設けられている点で、図9に示すエージェント装置1の構成と異なる。すなわち、図13のエージェント装置1は、内部キャラクタとのマージに用いる外部キャラクタを、エージェント装置1自身が管理するものである。
外部キャラクタ管理部88は、図9の外部キャラクタ管理部102と同様に、外部キャラクタのデータベースである外部キャラクタDBを管理する。外部キャラクタ管理部88は、外部キャラクタ取得部85により要求されたキャラクタタイプに応じた外部キャラクタの属性情報を外部キャラクタDBから読み出し、外部キャラクタ取得部85に出力する。
このように、内部キャラクタの特徴とのマージに用いる外部キャラクタの管理機能については、外部の装置に持たせるようにしてもよいし、エージェント装置1自身に持たせるようにしてもよい。
また、外部キャラクタ管理部88だけでなく、図9等に示す構成のうち、入力取得部81と応答出力部87以外の構成については、エージェント装置1以外の装置において実現されるようにすることが可能である。
・変形例6
図14は、エージェントシステムの他の構成例を示す図である。
図14の例においては、エージェント装置1と同様のエージェント機能を有する携帯端末151−1乃至151−Nが示されている。携帯端末151−1乃至151−Nにおいては、それぞれ1つの内部キャラクタが管理されており、それぞれのユーザに対する情報の提示が内部キャラクタを介して行われている。
エージェント装置1の外部キャラクタ取得部85は、携帯端末151−1乃至151−Nのうちの所定の携帯端末と通信を行い、携帯端末において管理されている内部キャラクタの属性情報を取得する。外部キャラクタ取得部85により取得された属性情報は、外部キャラクタの属性情報として、エージェント装置1の内部キャラクタとのマージに用いられる。
このように、エージェント装置1の内部キャラクタとのマージに用いられる外部キャラクタを、他の装置の内部キャラクタとすることも可能である。
・変形例7
図15は、エージェントシステムのさらに他の構成例を示す図である。
図15の例においては、図1の外部キャラクタ管理装置2と同様の機能を有する装置として、外部キャラクタ管理装置2A乃至2Cが示されている。外部キャラクタ管理装置2A乃至2Cは、それぞれ、サービスA乃至Cの事業者が管理する装置である。サービスA乃至Cは、ピザなどの飲食物のデリバリーサービス、旅行代理サービス、商品販売サービスなどの各種のサービスである。
例えば、外部キャラクタ管理装置2A乃至2Cは、それぞれ1つの外部キャラクタを管理している。外部キャラクタ管理装置2A乃至2Cが管理する外部キャラクタは、それぞれのサービスを提供するために用いられる。
エージェント装置1の外部キャラクタ取得部85は、ユーザがエージェント装置1を操作してサービスAのWebサイトにアクセスし、サービスAを利用しようとしている場合、外部キャラクタ管理装置2Aと通信を行い、外部キャラクタ管理装置2Aにおいて管理されている外部キャラクタの属性情報を取得する。この場合、ユーザが利用するサービスをコンテキストとして、外部キャラクタの選択が行われることになる。
外部キャラクタ取得部85により取得された属性情報は、エージェント装置1の内部キャラクタの属性情報とマージされ、サービスAの提供が、マージ後の内部キャラクタにより行われる。例えば、サービスAがピザのデリバリーサービスである場合、商品紹介、注文のためのユーザとのやりとりなどが、マージ後の内部キャラクタを介して行われることになる。
ユーザがサービスB,Cを利用する場合も同様に、外部キャラクタ管理装置2Bにおいて管理されている外部キャラクタの属性情報、または外部キャラクタ管理装置2Cにおいて管理されている外部キャラクタの属性情報が取得され、エージェント装置1の内部キャラクタの属性情報とのマージに用いられる。
このように、図15のエージェントシステムにおいては、ユーザが利用するサービス用の外部キャラクタが内部キャラクタにマージされ、マージ後の内部キャラクタを用いてサービスが提供される。これにより、サービスの提供が、サービスに応じた外部キャラクタの特徴を反映させた内部キャラクタにより行われることになる。
普段から利用し、ユーザが愛着を持っている内部キャラクタの特徴を僅かに変化させたキャラクタによりサービスが提供されることになるため、ユーザは、普段のやりとりと同じ感覚でサービスを利用することができる。
サービスの提供者側としても、自身が提供するサービスに応じた特徴を有する外部キャラクタを用意するだけで、キャラクタを介してサービスを提供するシステムを実現することができるため、サービスの開発が容易となる。また、ユーザが愛着を持っている内部キャラクタによりサービスが提供されるため、売り上げの向上が期待される。
・変形例8
外部キャラクタ自体の取引が行われるようにしてもよい。この場合、外部キャラクタを管理するサーバにおいては、例えば、様々なユーザが作成した外部キャラクタが管理され、販売される。
エージェント装置1のユーザは、好みの外部キャラクタを選択し、選択した外部キャラクタの属性情報をエージェント装置1に取り込んで内部キャラクタとマージさせることにより、内部キャラクタの特徴を好みに応じて変化させることができる。
・変形例9
マージ後の内部キャラクタに対するユーザの嗜好を学習し、ユーザの嗜好に応じて内部キャラクタの特徴を変化させるようにしてもよい。
図16は、エージェント装置1と外部キャラクタ管理装置2の機能構成例を示すブロック図である。
図16に示すエージェント装置1の構成は、キャラクタマージ部84に嗜好学習部84Aが設けられている点で、図9に示すエージェント装置1の構成と異なる。
嗜好学習部84Aは、内部キャラクタに対するユーザの嗜好を学習し、ユーザの嗜好の学習結果を内部キャラクタ管理部83に出力する。内部キャラクタに対するユーザの嗜好は、例えば、マージが行われる毎に学習される。
内部キャラクタ管理部83は、嗜好学習部84Aによる学習結果に基づいて、内部キャラクタの属性を調整する。例えば、ユーザが、褒めてくれるキャラクタを好んでいることが学習結果に基づいて特定された場合、内部キャラクタ管理部83は、褒める言い回しの発話を出力するように内部キャラクタの属性を調整する。
ユーザの嗜好の学習については、入力解析部82による解析結果に基づいて行われるようにしてもよいし、内部キャラクタを気に入っているか否かをユーザに選択させ、その選択結果に基づいて行われるようにしてもよい。
これにより、ユーザがより愛着を持つことができる内部キャラクタを生成することが可能になる。
・変形例10
エージェント装置1がロボット型の装置として実現されるようにしてもよい。この場合、図17に示すように、キャラクタの特徴を規定する属性情報には、動作表現も含まれる。
動作表現は、エージェント装置1の動作の仕方を表す属性である。動作表現の属性が異なるキャラクタの動作は、例えば、嬉しさを表現する動作や怒りを表現する動作などの同じ内容の動作を行う場合であっても、異なる動作によって表現されることになる。
例えば、かわいらしいジェスチャーの動作表現の属性が設定されたキャラクタと、激しいジェスチャーの動作表現の属性が設定されたキャラクタの特徴をマージした場合、マージ後のキャラクタは、その中間のジェスチャーを行うキャラクタとなる。
図18は、エージェント装置1の他のハードウェア構成例を示すブロック図である。
図18に示す構成のうち、図7に示す構成と同じ構成には同じ符号を付してある。重複する説明については省略する。図18に示す構成は、アクチュエータ161が追加して設けられている点で、図7に示す構成と異なる。
アクチュエータ161は、エージェント装置1の筐体を構成する各部をCPU51による制御に従って駆動させる。アクチュエータ161により、動作によってユーザとコミュニケーションを図るエージェント装置1が実現される。
・コンピュータの構成例
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図19は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
上述した外部キャラクタ管理装置2は、図19に示す構成を有するコンピュータにより実現される。
CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005及びバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
・構成の組み合わせ例
本技術は、以下のような構成をとることもできる。
(1)
コンテキストを取得する取得部と、
異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタを前記コンテキストに基づいて選択するキャラクタ選択部と
を備える情報処理装置。
(2)
メインのキャラクタとして選択されたメインキャラクタを管理する管理部と、
前記メインキャラクタを用いて、前記ユーザに対する情報の提示を行う出力制御部と
をさらに備える前記(1)に記載の情報処理装置。
(3)
前記キャラクタ選択部は、前記所定のキャラクタに設定された前記属性を、前記メインキャラクタに設定された前記属性にマージし、
前記出力制御部は、マージ後の前記属性により規定される特徴を有する前記メインキャラクタを用いて、前記ユーザに対する情報の提示を行う
前記(2)に記載の情報処理装置。
(4)
前記キャラクタ選択部は、前記メインキャラクタと前記所定のキャラクタに設定された複数種類の前記属性を、同じ種類同士、所定の重み付けを行ってマージする
前記(3)に記載の情報処理装置。
(5)
前記複数のキャラクタと前記メインキャラクタのそれぞれの特徴は、発話表現、発話内容、声色、および外観のうちの少なくともいずれかの前記属性により規定される
前記(4)に記載の情報処理装置。
(6)
前記出力制御部は、前記発話内容のルールに関する情報に基づいて、または、対話コーパスに基づく学習を行うことによって得られた前記発話内容のモデル情報に基づいて、前記ユーザに対する情報の提示を行う
前記(5)に記載の情報処理装置。
(7)
前記取得部は、前記ユーザにより入力されたテキストデータ、または前記ユーザの発話音声データを解析し、前記コンテキストを取得する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記キャラクタ選択部は、外部の装置が管理する前記複数のキャラクタの中から、前記所定のキャラクタを選択する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記複数のキャラクタを管理するキャラクタ管理部をさらに備え、
前記キャラクタ選択部は、前記キャラクタ管理部が管理する前記複数のキャラクタの中から、前記所定のキャラクタを選択する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(10)
前記取得部は、前記ユーザによる選択内容を前記コンテキストとして取得し、
前記キャラクタ選択部は、前記ユーザによる選択内容に応じて前記所定のキャラクタを選択する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記取得部は、前記ユーザに提示する内容を前記コンテキストとして取得し、
前記キャラクタ選択部は、前記ユーザに提示する内容に応じて前記所定のキャラクタを選択する
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記取得部は、前記ユーザのプロファイルを前記コンテキストとして取得し、
前記キャラクタ選択部は、前記ユーザのプロファイルに応じて前記所定のキャラクタを選択する
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記取得部は、前記ユーザが利用するサービスを前記コンテキストとして取得し、
前記キャラクタ選択部は、前記サービスに応じて前記所定のキャラクタを選択する
前記(1)乃至(12)に記載の情報処理装置。
(14)
前記取得部は、前記ユーザの顔画像の解析結果、前記ユーザの発話音声の解析結果、および、前記ユーザの発話内容の解析結果のうちの少なくともいずれかに基づいて認識した前記ユーザの感情を前記コンテキストとして取得し、
前記キャラクタ選択部は、前記ユーザの感情に応じて前記所定のキャラクタを選択する
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
マージ後の前記属性により規定される特徴を有する前記メインキャラクタに対する前記ユーザの嗜好を学習する嗜好学習部をさらに備え、
前記管理部は、前記ユーザの嗜好の学習結果に基づいて、前記メインキャラクタに設定された前記属性を調整する
前記(3)乃至(6)のいずれかに記載の情報処理装置。
(16)
前記キャラクタ選択部は、前記所定のキャラクタとして複数のキャラクタを選択し、選択した複数の前記所定のキャラクタのそれぞれに設定された前記属性を、前記メインキャラクタに設定された前記属性にマージする
前記(3)に記載の情報処理装置。
(17)
コンテキストを取得し、
異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタを前記コンテキストに基づいて選択する
ステップを含む情報処理方法。
(18)
コンピュータに、
コンテキストを取得し、
異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタを前記コンテキストに基づいて選択する
ステップを含む処理を実行させるプログラム。
1 エージェント装置, 2 外部キャラクタ管理装置, 81 入力取得部, 82 入力解析部, 83 内部キャラクタ管理部, 84 キャラクタマージ部, 85 外部キャラクタ取得部, 86 応答生成部, 87 応答出力部, 102 外部キャラクタ管理部, 101 外部キャラクタ送信部

Claims (18)

  1. コンテキストを取得する取得部と、
    異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタを前記コンテキストに基づいて選択するキャラクタ選択部と
    を備える情報処理装置。
  2. メインのキャラクタとして選択されたメインキャラクタを管理する管理部と、
    前記メインキャラクタを用いて、前記ユーザに対する情報の提示を行う出力制御部と
    をさらに備える請求項1に記載の情報処理装置。
  3. 前記キャラクタ選択部は、前記所定のキャラクタに設定された前記属性を、前記メインキャラクタに設定された前記属性にマージし、
    前記出力制御部は、マージ後の前記属性により規定される特徴を有する前記メインキャラクタを用いて、前記ユーザに対する情報の提示を行う
    請求項2に記載の情報処理装置。
  4. 前記キャラクタ選択部は、前記メインキャラクタと前記所定のキャラクタに設定された複数種類の前記属性を、同じ種類同士、所定の重み付けを行ってマージする
    請求項3に記載の情報処理装置。
  5. 前記複数のキャラクタと前記メインキャラクタのそれぞれの特徴は、発話表現、発話内容、声色、および外観のうちの少なくともいずれかの前記属性により規定される
    請求項4に記載の情報処理装置。
  6. 前記出力制御部は、前記発話内容のルールに関する情報に基づいて、または、対話コーパスに基づく学習を行うことによって得られた前記発話内容のモデル情報に基づいて、前記ユーザに対する情報の提示を行う
    請求項5に記載の情報処理装置。
  7. 前記取得部は、前記ユーザにより入力されたテキストデータ、または前記ユーザの発話音声データを解析し、前記コンテキストを取得する
    請求項1に記載の情報処理装置。
  8. 前記キャラクタ選択部は、外部の装置が管理する前記複数のキャラクタの中から、前記所定のキャラクタを選択する
    請求項1に記載の情報処理装置。
  9. 前記複数のキャラクタを管理するキャラクタ管理部をさらに備え、
    前記キャラクタ選択部は、前記キャラクタ管理部が管理する前記複数のキャラクタの中から、前記所定のキャラクタを選択する
    請求項1に記載の情報処理装置。
  10. 前記取得部は、前記ユーザによる選択内容を前記コンテキストとして取得し、
    前記キャラクタ選択部は、前記ユーザによる選択内容に応じて前記所定のキャラクタを選択する
    請求項1に記載の情報処理装置。
  11. 前記取得部は、前記ユーザに提示する内容を前記コンテキストとして取得し、
    前記キャラクタ選択部は、前記ユーザに提示する内容に応じて前記所定のキャラクタを選択する
    請求項1に記載の情報処理装置。
  12. 前記取得部は、前記ユーザのプロファイルを前記コンテキストとして取得し、
    前記キャラクタ選択部は、前記ユーザのプロファイルに応じて前記所定のキャラクタを選択する
    請求項1に記載の情報処理装置。
  13. 前記取得部は、前記ユーザが利用するサービスを前記コンテキストとして取得し、
    前記キャラクタ選択部は、前記サービスに応じて前記所定のキャラクタを選択する
    請求項1に記載の情報処理装置。
  14. 前記取得部は、前記ユーザの顔画像の解析結果、前記ユーザの発話音声の解析結果、および、前記ユーザの発話内容の解析結果のうちの少なくともいずれかに基づいて認識した前記ユーザの感情を前記コンテキストとして取得し、
    前記キャラクタ選択部は、前記ユーザの感情に応じて前記所定のキャラクタを選択する
    請求項1に記載の情報処理装置。
  15. マージ後の前記属性により規定される特徴を有する前記メインキャラクタに対する前記ユーザの嗜好を学習する嗜好学習部をさらに備え、
    前記管理部は、前記ユーザの嗜好の学習結果に基づいて、前記メインキャラクタに設定された前記属性を調整する
    請求項3に記載の情報処理装置。
  16. 前記キャラクタ選択部は、前記所定のキャラクタとして複数のキャラクタを選択し、選択した複数の前記所定のキャラクタのそれぞれに設定された前記属性を、前記メインキャラクタに設定された前記属性にマージする
    請求項3に記載の情報処理装置。
  17. コンテキストを取得し、
    異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタを前記コンテキストに基づいて選択する
    ステップを含む情報処理方法。
  18. コンピュータに、
    コンテキストを取得し、
    異なる特徴を規定する属性が設定された複数のキャラクタの中から、ユーザに対する情報の提示に用いられる所定のキャラクタを前記コンテキストに基づいて選択する
    ステップを含む処理を実行させるプログラム。
JP2019525358A 2017-06-20 2018-06-07 情報処理装置、情報処理方法、およびプログラム Ceased JPWO2018235607A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017120790 2017-06-20
JP2017120790 2017-06-20
PCT/JP2018/021807 WO2018235607A1 (ja) 2017-06-20 2018-06-07 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JPWO2018235607A1 true JPWO2018235607A1 (ja) 2020-04-16

Family

ID=64737638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019525358A Ceased JPWO2018235607A1 (ja) 2017-06-20 2018-06-07 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20200105265A1 (ja)
EP (1) EP3644173A4 (ja)
JP (1) JPWO2018235607A1 (ja)
WO (1) WO2018235607A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019010682A1 (zh) * 2017-07-14 2019-01-17 深圳前海达闼云端智能科技有限公司 机器人性格设定方法、装置和机器人
CN109986569B (zh) * 2017-12-29 2022-08-23 微软技术许可有限责任公司 具有角色化和性格化的聊天机器人
US11210968B2 (en) * 2018-09-18 2021-12-28 International Business Machines Corporation Behavior-based interactive educational sessions
JP2023523922A (ja) 2020-05-20 2023-06-08 ソニーグループ株式会社 仮想環境におけるミックステープデジタル資産
CN111916065B (zh) * 2020-08-05 2024-07-02 北京百度网讯科技有限公司 用于处理语音的方法和装置
JP7423490B2 (ja) * 2020-09-25 2024-01-29 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
CN113270114A (zh) * 2021-07-19 2021-08-17 北京明略软件***有限公司 一种语音质检方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179249A (ja) * 2005-12-27 2007-07-12 Kenwood Corp 情報検索装置及びプログラム
WO2016090605A1 (en) * 2014-12-11 2016-06-16 Intel Corporation Avatar selection mechanism

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1326445B1 (en) * 2001-12-20 2008-01-23 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
JP2007334251A (ja) 2006-06-19 2007-12-27 Kenwood Corp エージェント装置、プログラム、及び音声供給方法
US20090177976A1 (en) * 2008-01-09 2009-07-09 Bokor Brian R Managing and presenting avatar mood effects in a virtual world

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179249A (ja) * 2005-12-27 2007-07-12 Kenwood Corp 情報検索装置及びプログラム
WO2016090605A1 (en) * 2014-12-11 2016-06-16 Intel Corporation Avatar selection mechanism

Also Published As

Publication number Publication date
WO2018235607A1 (ja) 2018-12-27
EP3644173A4 (en) 2020-07-01
EP3644173A1 (en) 2020-04-29
US20200105265A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
JPWO2018235607A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220319517A1 (en) Electronic personal interactive device
US9916825B2 (en) Method and system for text-to-speech synthesis
US10515655B2 (en) Emotion type classification for interactive dialog system
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
CN109313898A (zh) 提供低声语音的数字助理
CN110998725A (zh) 在对话中生成响应
CN111542814A (zh) 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质
Costa et al. Adapting multimodal fission to user’s abilities
WO2020213468A1 (ja) 情報処理システム、情報処理方法、及びプログラム
JP6201212B2 (ja) キャラクタ生成装置およびプログラム
CN111556999B (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
CN111557001B (zh) 提供自然语言对话的方法、计算机装置及计算机可读存储介质
WO2016206645A1 (zh) 为机器装置加载控制数据的方法及装置
KR20210131892A (ko) 대화형 청중 시뮬레이션을 제공하는 장치 및 방법
US11443738B2 (en) Electronic device processing user utterance and control method thereof
KR102017544B1 (ko) 메신저 플랫폼에 관계없이 복수의 메신저를 이용하는 사용자간 다양한 형식의 채팅 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7263957B2 (ja) 情報装置、自動設定方法及び自動設定プログラム
Schnelle-Walka et al. Multimodal dialogmanagement in a smart home context with SCXML
KR20200085433A (ko) 탈부착형 스피커를 포함한 음성합성 시스템 및 방법
JP6993034B1 (ja) コンテンツ再生方法、及びコンテンツ再生システム
JP6957067B1 (ja) 人とコミュニケーションを行うシステム及びそのためのプログラム
JP2024077596A (ja) 対話サービス提供システム、情報処理装置、対話サービス提供方法、及びプログラム
KR20190091189A (ko) 대화 이해 ai 시스템에 의한, 사용자를 위한 대화 세션에 연관된 관리자 디스플레이를 제어하는 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230228