JP6654691B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP6654691B2
JP6654691B2 JP2018510188A JP2018510188A JP6654691B2 JP 6654691 B2 JP6654691 B2 JP 6654691B2 JP 2018510188 A JP2018510188 A JP 2018510188A JP 2018510188 A JP2018510188 A JP 2018510188A JP 6654691 B2 JP6654691 B2 JP 6654691B2
Authority
JP
Japan
Prior art keywords
user
utterance
information processing
option
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018510188A
Other languages
English (en)
Other versions
JPWO2017175351A1 (ja
Inventor
真一 本多
真一 本多
めぐみ 菊池
めぐみ 菊池
隆史 佐竹
隆史 佐竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2017175351A1 publication Critical patent/JPWO2017175351A1/ja
Application granted granted Critical
Publication of JP6654691B2 publication Critical patent/JP6654691B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、ユーザーから音声による入力を受け付ける情報処理装置、情報処理方法、プログラム、及び情報記憶媒体に関する。
ユーザーが発話する音声を受け付けて、その音声の内容に応じて情報処理を実行する情報処理装置が知られている。このような技術によれば、ユーザーは手を使ってキーボードやタッチパネルで文字を入力する代わりに、声で各種の指示や情報を入力することができる。また、ユーザーの発話から、感情や態度など発話した内容以外のものを読み取る技術も研究されている(例えば非特許文献1参照)。
Kikuo Maekawa and Hiroki Mori、"VOICE-QUALITY ANALYSIS OF JAPANESE FILLED PAUSES: A PRELIMINARY REPORT"、[online]、[平成27年11月16日検索]、インターネット<URL:http://www2.ninjal.ac.jp/kikuo/Maekawa-DISS2015.pdf>
上記従来例の技術においては、ユーザーと情報処理装置との間で円滑なコミュニケーションを実現するうえで様々な課題がある。例えば、ユーザーの音声を受け付ける際には、精度よくユーザーの発話内容を認識する必要がある。しかしながら、ユーザーに完全に自由な発話を許すこととすると、ユーザーの発話内容を正確に認識することが難しくなる。そこで、ユーザーから受け付ける情報の種類が限られている場合には、ユーザーに選択肢を提示することによって、ユーザーが発話する内容をこの選択肢に限定することが考えられる。ところが、ユーザーの発話内容を選択肢だけに制限すると、ユーザーの発話が機械的になり、ユーザーの感情や態度が発話内容に表れにくくなる。そのため、ユーザーに自然な発話をさせたい場合には、ユーザーの発話内容を選択肢だけに制限することは望ましくない。
また、ユーザーの発話に先立って情報処理装置がユーザーに対する発言を音声で再生する場合、その発言の再生が終了するまでは、ユーザーが発話を開始することができない。そのため、情報処理装置がユーザーにとって興味のない発言などを行うと、円滑なコミュニケーションが損なわれることもあり得る。
本発明は上記実情を考慮してなされたものであって、その目的の一つは、ユーザーとの間で音声による円滑なコミュニケーションを実現することのできる情報処理装置、情報処理方法、プログラム、及び情報記憶媒体を提供することにある。
本発明に係る情報処理装置は、複数の選択肢をユーザーに提示する選択肢提示部と、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部と、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部と、を含むことを特徴とする。
本発明に係る別の情報処理装置は、ユーザーに提示すべき発言を音声で再生する再生部と、前記ユーザーの発話内容を認識する音声認識部と、を含み、前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止することを特徴とする。
本発明に係る情報処理方法は、複数の選択肢をユーザーに提示するステップと、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識するステップと、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定するステップと、を含むことを特徴とする。
本発明に係るプログラムは、複数の選択肢をユーザーに提示する選択肢提示部、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部、及び、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部、としてコンピュータを機能させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。
本発明の実施の形態に係る情報処理装置の構成を示す構成ブロック図である。 本発明の実施の形態に係る情報処理装置の機能を示す機能ブロック図である。 選択肢を表示する画面の一例を示す図である。 ユーザーが行う選択発話の一例を示す図である。 本発明の実施の形態に係る情報処理装置が実行する処理の流れの一例を示すフロー図である。
以下、本発明の実施形態について、図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係る情報処理装置1の構成を示す構成ブロック図である。情報処理装置1は、例えば家庭用ゲーム機や携帯型ゲーム機、パーソナルコンピュータ、スマートホン等であって、図1に示すように、制御部11と、記憶部12と、インタフェース部13と、を含んで構成されている。また、情報処理装置1は、表示装置14、マイクロホン15、スピーカー16、及びカメラ17と接続されている。
制御部11はCPU等を含んで構成され、記憶部12に記憶されているプログラムを実行して各種の情報処理を実行する。本実施形態において制御部11が実行する処理の具体例については、後述する。記憶部12は、RAM等のメモリデバイスを含み、制御部11が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。インタフェース部13は、情報処理装置1が表示装置14、マイクロホン15、スピーカー16、及びカメラ17との間で各種の情報を授受するためのインタフェースである。
表示装置14は、ヘッドマウントディスプレイや家庭用テレビ受像機、液晶ディスプレイ等であって、情報処理装置1が出力する映像信号に応じた画像を画面上に表示する。特に表示装置14がヘッドマウントディスプレイのようにユーザーの視界を覆うタイプのデバイスである場合、ユーザーは自分の手元が見えなくなるため、コントローラ等の操作入力デバイスを手で操作しにくくなる。そこで、後述するように情報処理装置1がユーザーの声による情報の入力を受け付けることで、ユーザーは自分の手元が確認できない状況でも容易に情報の入力を行うことができる。マイクロホン15は、情報処理装置1のユーザーが発する声を集音して得られる音声信号を情報処理装置1に対して出力する。スピーカー16は、情報処理装置1が出力する音声信号に従って音声を鳴動させる。カメラ17は、ユーザーの様子を示す映像を撮像し、撮像された映像を情報処理装置1に入力する。なお、表示装置14、マイクロホン15、及びスピーカー16は、いずれも情報処理装置1の筐体内に内蔵されてもよいし、情報処理装置1と有線又は無線により接続される別個の装置であってもよい。
また、情報処理装置1は、ユーザーの頭部の動きを検出するために、3軸加速度センサーや地磁気センサーなどの姿勢検出センサーを備えたデバイスと接続されてもよい。このようなデバイスをユーザーが装着することで、ユーザーの頭部の動作を検出できる。また、情報処理装置1は、ユーザーの操作入力を受け付ける操作入力デバイス(コントローラ等)と接続されてもよい。
以下、情報処理装置1が実現する機能について、図2を用いて説明する。図2に示すように、情報処理装置1は、機能的に、エージェント処理部21、音声信号取得部22、音声認識部23、及び選択結果特定部24を含んで構成されている。これらの機能は、制御部11が記憶部12に記憶されたプログラムに従って動作することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置1に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
エージェント処理部21は、ユーザーとコミュニケーションを行う仮想的なエージェントを実現し、エージェントによるユーザーとの会話処理を実行する。具体的にエージェント処理部21は、会話の一部として、ユーザーに対して選択肢の提示と、その選択肢に対するユーザーの選択の受け入れを行う。本実施形態においてエージェント処理部21は、表示装置14の画面に複数の選択肢を表示することによって、ユーザーに選択肢を提示する。
図3は、選択肢を表示する画面の一例を示している。この図の例では、「どこに行く?」というエージェントからユーザーに向けた質問と、その質問に対する回答の候補として、「プール」、「日昇公園」、「梅ランド」、「クール猫パーク」の4個の選択肢が提示されている。さらにこの例では、日本語の各選択肢の語句に対して、英語に翻訳した語句と、選択肢を識別するラベル(ここでは数字)が並んで表示されている。また、この図の例では、4個の選択肢が上から順に並んでいるのではなく、画面中央から見て上下左右の4方向に配置されている。なお、エージェント処理部21は、選択肢を画面に表示させる代わりに、複数の選択肢を順に音声としてスピーカー16から再生してもよい。また、選択肢は画面に表示するが、質問だけは音声として再生してもよい。
図3に例示されるような選択肢が提示されると、ユーザーはその中から自分が選択する内容に関する発話を行う。以下では、この選択肢の提示を受けてユーザーが行う発話を、選択発話という。また、ユーザーが選択する選択肢のことを選択結果という。後述するように、本実施形態では、ユーザーによる選択発話の内容は必ずしも選択肢の語句そのものと一致しておらずともよい。選択発話の内容は、音声信号取得部22、音声認識部23、及び選択結果特定部24によって処理され、これにより選択結果特定部24がユーザーの選択結果を特定する。エージェント処理部21は、特定された選択結果の情報を用いて、続くエージェントの発言内容を決定する。そして、決定したエージェントの発言内容を話す音声信号を生成し、スピーカー16に対して出力する。これにより、エージェントの発言がスピーカー16から音声として再生される。エージェント処理部21は、エージェントの発言を音声として再生する代わりに、表示装置14の画面に表示させてもよい。
エージェント処理部21は、ユーザーの選択結果だけでなく、選択発話の特徴を示す各種の特徴量を算出し、その算出結果を用いて続くエージェントの発言内容を決定してもよい。また、カメラ17によって撮像されたユーザーの表情や動作などに関する情報を用いてエージェントの発言内容を決定してもよい。ユーザーが選択肢の中から選択を行う場合にも、その選択を積極的に行ったか、または消極的に行ったかなど、様々な感情が込められていると考えられる。エージェント処理部21は、選択発話自体や、選択発話を行った際のユーザーの様子を解析することによって、ユーザーの感情や思考を反映する各種のパラ言語情報、非言語情報などに関する特徴量を求めることができる。このような特徴量を用いて以降のエージェントの振る舞いを決定することによって、単に選択肢の提示と選択結果の受け入れだけを行う場合と比較して、エージェント処理部21は人間同士の会話に近い自然なコミュニケーションを実現することができる。
また、エージェント処理部21は、エージェントの発言を音声として再生するだけでなく、エージェントを表すキャラクターなどの画像を表示装置14の画面に表示してもよい。さらに、ユーザーの発話内容やエージェントの発言内容などに応じてこのキャラクターが動作する様子を示す映像を表示してもよい。
音声信号取得部22は、マイクロホン15によって集音された音声信号を取得し、音声認識部23に対して出力する。本実施形態において音声信号取得部22は、エージェントの質問に対して応答するユーザーの声を含んだ音声信号を取得することになる。
音声認識部23は、音声信号取得部22が取得した音声信号を解析することによって、ユーザーの発話内容を特定する。このような発話内容の特定は、隠れマルコフモデルを用いた統計的手法や動的時間伸縮法など、各種公知の音声認識技術などを用いて実現できる。特定されたユーザーの発話内容は、選択結果特定部24による選択結果の特定に用いられる。
なお、音声認識部23は、ユーザーが発話を終えてから音声認識処理を実行するのではなく、ユーザーが発話を行っている間、随時音声認識処理を実行してもよい。この場合、ユーザーが発話を続けている間、音声認識部23は、音声信号取得部22によって順次取得される所定時間分の音声信号に対して音声認識処理を実行し、その所定時間分の音声信号が何の音素に対応するかを特定する。このような処理を時間の経過に伴って繰り返し実行することによって、リアルタイムでユーザーの発話内容を特定することができる。
選択結果特定部24は、音声認識部23による音声認識の結果特定される選択発話の内容に応じて、ユーザーの選択結果を特定する。ここで、選択肢として提示された語句そのもの(例えば「プール」など)をユーザーが発話し、かつ、その語句が音声認識部23によって正しく認識された場合、選択結果特定部24は、ユーザーが発話した選択肢をそのまま選択結果として特定すればよい。しかしながら、ユーザーは選択肢の語句そのものを発話するとは限らない。また、ユーザーが選択肢の語句そのものを発話した場合であっても、周囲の雑音やユーザー本人の滑舌、音声認識処理の精度などの問題から、ユーザーの発話内容を常に音声認識部23が正確に認識できるとは限らない。そこで選択結果特定部24は、音声認識部23による音声認識結果に基づいて、各種の判定処理を実行して、ユーザーの選択結果を特定する。
以下、選択結果特定部24が選択結果を特定するために実行する処理の具体例について、説明する。まず、辞書を利用して選択結果を特定する具体例について説明する。
辞書を使用する第1の例として、複数の選択肢のそれぞれに対応する関連語辞書を用いる例について説明する。この例では、選択肢の語句のそれぞれに対して、選択肢の語句そのものと、これに関連する語句とを含んだ関連語辞書を予め用意しておく。例えば選択肢の語句が固有名詞の場合、関連語辞書にはその略称や愛称などが含まれてよい。選択結果特定部24は、音声認識部23によって認識されたユーザーの発話内容が関連語辞書に登録されたいずれかの語句と一致した場合に、その関連語辞書に対応する選択肢が選択されたと判定する。同じ語句についての様々な表現を予め関連語辞書に登録しておくことで、表示された選択肢をユーザーが別の表現で発話した場合にも、ユーザーの選択結果を特定できる。
また、関連語辞書は、選択肢の語句やその関連語句を様々な言語に翻訳した翻訳語を含んでもよい。図3の例では日本語と英語の双方で選択肢の語句が表示されているが、それ以外の外国語についても、選択肢の語句の翻訳表現を関連語辞書に登録しておく。こうすれば、ユーザーが外国語で選択肢の内容を発話した場合であっても、選択結果を特定できる。なお、関連語辞書には、外国語の翻訳表現だけに限らず、選択肢の語句を各地方の方言で表現した語句が含まれてもよい。また、語句の文字自体は同じであってもユーザーによっては発話時のイントネーションが異なり、このようなイントネーションの違いにより音声認識処理で違う語句と認識される可能性がある。そこで、関連語辞書は同じ語句を各種のイントネーションで発話した表現を含んでもよい。また、通常の英語表現のほかに、日本人訛りの英語(いわゆるカタカナ英語)などを含んでもよい。
次に辞書を使用する第2の例として、選択肢に付加されるラベルを示すラベル辞書を用いる例について説明する。この例では、エージェント処理部21は、各選択肢を表示する際に、その選択肢を識別するためのラベルを付加して表示する。図3の例では、各選択肢に数字のラベルが付加されている。この場合にユーザーは、選択肢の語句の代わりに、選択肢に付加されたラベルを示す語句を発話してもよい。例えば図3の例でプールを選択したい場合、ユーザーは「いち」と発話してもよい。選択肢に付加されるラベルは、数字に限らず、アルファベットやギリシア文字(「α」、「β」…)、フォネティックコード(「Alfa」、「Bravo」…)、五十音(「あ」「い」「う」「え」…)、いろは仮名(「い」「ろ」「は」「に」…)など、各種のものあってよい。また、ラベルは「○」「△」「□」などの記号であってもよい。この場合、ユーザーは「まる」「さんかく」などと発話することによって、選択肢を選択できる。
この第2の例では、ラベルに対応する語句を登録したラベル辞書が予め用意され、エージェント処理部21が各選択肢にラベルを付加して提示する際に、各選択肢に付加されたラベルを示す語句を含んだラベル辞書が対応づけられる。選択結果特定部24は、ユーザーの発話内容がラベル辞書に含まれる語句に一致する場合、そのラベルが付加された選択肢を選択結果として特定する。関連語辞書の例と同様に、ラベル辞書には、「いち」や「まる」などのラベルを直接表す語句だけでなく、その語句を各国語に翻訳した語句や、イントネーション違いの語句などが含まれてよい。
また、ラベル辞書には、選択肢に付加されるラベルを示す語句に限らず、選択肢の表示態様を示す語句が含まれてもよい。このような表示態様を示す語句の例としては、選択肢の画面内における表示位置を示す語句が挙げられる。具体的に、図3の例では複数の選択肢が上下左右に並んで配置されている。この場合、ラベル辞書には、「うえ」「した」「みぎ」「ひだり」といった位置を表す語句が含まれてよい。こうすれば、ユーザーは、例えば「うえ」と発話することで上方向に表示された「プール」を選択できる。また、表示態様を示す語句は、表示順序を示す数字や序数などの語句を含んでもよい。こうすれば、選択肢に数字のラベルが付加されていない場合であっても、ユーザーは「いちばん」「ひとつめ」などの数字や序数を示す語句を発話することで、その数によって指定される選択肢を選択できる。また、各選択肢が互いに異なる文字色や背景色で表示されている場合、ラベル辞書はその文字色や背景色(表示色)の名前(例えば「あか」「あお」など)を含んでよい。これにより、ユーザーは表示色で選択肢を指定できる。
以上説明した第1の例、及び第2の例では、いずれも選択肢に対応づけられた辞書を用いてユーザーの発話内容が特定の語句に一致するか否かのマッチングを行うこととしているが、いずれの場合にも限られた語句だけを含んだ辞書を用いることになる。そのため、不特定多数の語句を含んだ辞書を用いて自然言語の音声認識処理を行う場合と比較すれば、処理負荷はそれほど高くなく、認識精度も高くなる。なお、選択結果特定部24は、この第1の例と第2の例を組み合わせて用いてもよい。この場合、選択結果特定部24は、関連語辞書及びラベル辞書の全てに含まれる語句をユーザーの発話内容と比較して、一致する語句を探せばよい。
以上の説明では、音声認識部23によって認識されたユーザーの発話内容が、いずれかの辞書に含まれる語句と完全に一致することを前提とした。しかしながら、ユーザーの発話内容は、様々な理由から各辞書に含まれる語句と完全に一致しない場合がある。そこで、選択結果特定部24は、各種の判断基準を用いることによって、完全に一致しない場合であっても、ユーザーの発話内容が辞書に含まれる語句と対応すると判断してもよい。以下、このような判断基準のいくつかの例について、説明する。なお、以下の説明では、関連語辞書やラベル辞書に含まれる語句(すなわち、選択結果特定部24がユーザーの発話内容と比較すべき語句)を、比較対象語句という。以下に例示する判断基準によってユーザーの発話内容がいずれかの比較対象語句に対応すると判断された場合、選択結果特定部24は、その比較対象語句に対応する選択肢をユーザーが選択したとみなす。
判断基準の第1の例として、装飾表現に関する判断基準について説明する。ユーザーは選択肢の語句やその関連語句、あるいは選択肢に付与されたラベルを示す語句等を単独で発話するとは限らず、様々な語句(装飾表現)を前後に付け加える場合がある。特にユーザーが通常の会話に近い態度で発話をする場合、ユーザーは単独の語句を発話するよりも比較対象語句を含んだセンテンスを話す可能性が高い。例えば図3の例では、1番のプールを選択しようとする場合に、「プールかな…」「イチかな。」「イチでしょ!」など、選択肢の語句やラベルを示す語句等を一部に含んだ内容を発話すると考えられる。選択結果特定部24は、このような場合であってもユーザーの選択結果を正しく特定することが望まれる。そこで選択結果特定部24は、ユーザーの発話内容に含まれる一部の音素列が比較対象語句と一致する場合、一致する比較対象語句に対応する選択肢を選択結果として特定する。このようにユーザーの発話全体のうちの一部の語句が比較対象語句とマッチするかを選択結果特定部24が判断することで、ユーザーは自然な会話に近い態度で選択肢を選ぶ発話を行うことができる。
次に第2の例として、表現の揺らぎに関する判断基準について説明する。ユーザーの発話内容は、音声認識処理における誤認識やユーザーの発話の癖などによって、比較対象語句に近いが完全には一致しない語句として認識される場合がある。このような場合に対応するために、選択結果特定部24は、比較対象語句とユーザーの発話内容との間で表現の揺らぎとして予め定められたパターンのずれが生じている場合に、両者が一致すると判断する。
具体例として、ユーザーの滑舌が悪い場合、特に子音が誤認識される場合がある。そこで選択結果特定部24は、ユーザーの発話内容と比較対象語句とで母音が一致した場合に、子音が一致せずとも両者が対応すると判断してもよい。一例として、「イキ」「イシ」などの語句がユーザーの発話内容に含まれる場合に、選択結果特定部24はユーザーが日本語の「イチ」と発話したと推定し、1番目の選択肢を選択結果として特定してもよい。また、英語の「peach」が比較対象語句に含まれており、ユーザーの発話内容に対する音声認識結果に、「beach」のように一部の子音だけが異なる別の語句が含まれる場合、「peach」を選択結果として特定してもよい。
また、選択結果特定部24は、ユーザーの発話内容から長音を省略した語句が比較対象語句に一致する場合に、両者が対応すると判断してもよい。例えばユーザーが日本語で「イーチ」と発話した場合に、1番目の選択肢を選択結果として特定する。同様に、英語など他の言語においても、「alphaaa」などのように同じ母音が連続する語句をユーザーが発話した場合に、母音を短縮した比較対象語句が選択されたと判断してもよい。また、訛りや方言などによって変化する音がある場合、選択結果特定部24は、そのような音の変化した語句を比較対象語句に対応すると判断する判断基準を用いてもよい。例えば、「シガグ」というユーザーの発話を日本語の「シカク」を意味するものと判断してもよい。また、イギリス英語とアメリカ英語で同じ単語の発音の仕方に違いがある場合に、このような音の変化した語句を比較対象語句に対応すると判断してもよい。具体的には、vitaminにおける最初のiの発音や、herbの最初のhの発音などのように、イギリス英語とアメリカ英語で発音の仕方に違いがあることが知られている。このような判断基準を用いて比較対象語句とユーザーの発話内容とを比較することで、方言などにより表現が変化した語句を全て辞書に含めなくとも、このような語句が比較対象語句と対応していると判断することができる。
次に第3の例として、部分一致の判断基準について説明する。この例では、選択結果特定部24は、比較対象語句とユーザーの発話内容とが所定の基準の範囲内で部分的に一致する場合に、両者が対応すると判断する。例えば人名は、その前半部分が元の名前と一致するが後半部分が一致しない愛称で呼ばれることがある。具体的には、「マルサス」という名前であれば「マルちゃん」「マルくん」「マルさん」などの呼ばれ方をする可能性があり得る。また、「クリスティーナ」は、「クリス」、「クリスィー」などと呼ばれる可能性がある。そこで、例えば選択結果特定部24は、先頭の所定数の音素、または先頭の所定割合の音素が比較対象語句と一致する語句がユーザーの発話内容に含まれる場合に、ユーザーの発話内容と比較対象語句とが対応すると判断する。こうすれば、ユーザーが選択肢の語句の一部を変化させた表現を用いた場合に、このような変化した表現を網羅的に辞書に登録しておかなくとも、選択結果を正しく特定できる。なお、人名に限らず、選択肢の語句が「cute」でユーザーが「cuty」と発話した場合など、語尾が活用する語句などの場合にも、同様の判断基準でユーザーの選択結果を特定することができる。
以上説明した判断基準は、組み合わせて用いられてよい。これにより、ユーザーが多様な表現で選択肢を選ぶ発話を行ったとしても、選択結果特定部24はユーザーの選択結果を特定することができる。
前述したように、エージェント処理部21は、選択結果特定部24によって特定された選択結果に応じて、続くエージェントの発言を決定する。さらにエージェント処理部21は、ユーザーの選択結果だけでなく、選択発話から読み取られるユーザーの感情や態度に応じて、その後の発言を変化させてもよい。発話内容からユーザーの感情や態度を判断する手法としては、公知のものが利用可能である。
具体的に、エージェント処理部21は、選択発話を記録した音声信号から算出されるパラ言語情報の特徴量を用いてユーザーの感情を推定する。パラ言語情報は、話速、音量(声圧)、声の抑揚、イントネーション(ユーザーが強調する語句など)、言葉遣い(丁寧口調かくだけた口調かなど)、発言量などを含んでよい。また、マイクロホン15が取得する音声信号に限らず、カメラ17によって撮像されるユーザーの映像から得られる各種の情報を利用してもよい。映像から得られる情報としては、ユーザーの表情、視線、瞬き、また頷きや手振りなどの動作(ジェスチャー)が挙げられる。
また、エージェント処理部21は、選択肢が提示されてからユーザーが選択発話を開始するまでの経過時間(以下、思考時間という)を特徴量の一つとして算出し、感情の評価処理に用いてもよい。思考時間が短いほど、ユーザーは迷いなく選択肢を選んでいると推定され、思考時間が長い場合、ユーザーは選択の際に迷いがあったと考えられる。このような情報を参照することで、ユーザーの感情を読み取ることができる。思考時間を用いてユーザーの感情を評価する場合、ユーザーが選んだ選択結果が選択肢として提示された際の提示順序に応じて、評価基準を変化させてもよい。複数の選択肢が画面上に表示される場合、ユーザーは上から順に選択肢を見て、どの選択肢を選ぶか決定すると考えられる。つまり、後に提示される選択肢に目を通すまでには時間がかかると想定される。そのためエージェント処理部21は、後に提示される選択肢が選択結果として特定された場合、先に提示される選択肢が選択結果として特定された場合と比較して、思考時間が実際より短いものとして感情の評価を行う。こうすれば、ユーザーが選択肢を視認してから選択発話を行うまでの時間に応じて評価を行うことができる。
また、前述したようにユーザーは選択発話において選択肢の語句そのものを発話する代わりに、ラベルを示す語句を発話する場合がある。このような場合にも、その語句が選択肢の語句を指しているものとして、感情の評価を行えばよい。例えばユーザーが「Aだよ」という発話を行った場合、Aというラベルが「かわいい」という選択肢に付加されていたのであれば、エージェント処理部21はユーザーが「かわいい」と発話したときと同様の評価基準で感情の評価を行う。その結果、ユーザーが本心からかわいいと思っているか、あるいは皮肉っぽく発言したのか、などを評価することができる。一方、Aというラベルが「リンゴ」という選択肢に付加されていた場合には、ユーザーがリンゴについて発言したという前提の下に感情の評価を行う。この場合には、その発言が皮肉かどうか、などの評価を行う必要はない。
エージェント処理部21は、以上説明した感情の評価処理によって得られる評価結果を、発言内容の決定に用いてもよいし、その他の出力内容に反映させてもよい。例えばエージェント処理部21がゲームの処理を実行する場合、評価結果に応じてゲームの進行を変化させてもよい。この例では、ユーザーが選択発話を強い感情で行ったと評価される場合、ゲームで有利な効果を発生させてもよい。また、エージェント処理部21は、評価結果そのものをユーザーに提示してもよい。また、感情の評価結果によっては、エージェント処理部21は、選択結果特定部24によって特定された選択結果を変更してもよい。一例として、ユーザーがある選択結果を選んだ際に、選択発話に対して感情の評価処理を実行した結果、その発言に消極的であったと評価された場合、エージェント処理部21は別の選択肢が選択結果として特定されたものとして処理を続行してもよい。
以上説明したように、情報処理装置1は、感情の評価結果を利用することで、複数の選択肢のうちの一つをユーザーに選択させる場合であっても、選択肢の数以上にその後の処理内容を様々に変化させることができる。また、感情の評価結果をフィードバックした結果をユーザーに提示することで、情報処理装置1はユーザーが自然に感情を込めた発話を行うように誘導することができる。これにより、選択肢をユーザーに選ばせるにもかかわらず、人間同士の会話に近い自然なコミュニケーションを行っているようにユーザーに感じさせることができる。
以下、エージェント処理部21による会話のタイミング制御に関して説明する。通常、エージェント処理部21は、音声認識部23によってユーザーの発話の終了が検出されてから、その発話内容を解析した結果に基づいてエージェントの次の発言の内容を決定し、決定した発言を出力する。しかしながら、周囲の騒音などが原因でユーザーの発話が終了したことを検出できない場合がある。そこで音声認識部23は、選択肢が提示されてから所定時間が経過しても発話の終了が検出できない場合に、無条件で音声認識処理を終了し、それまで取得された音声信号に対する認識処理結果を用いて次の処理を実行してもよい。一般的に、自由会話の場合と異なり、選択肢の提示に対するユーザーの回答にはそれほど時間がかからないと考えられることから、所定時間で音声認識処理を終了しても、その中にユーザーの選択内容が含まれる可能性は高いと想定される。
また、前述したようにユーザーの発話中にリアルタイムで音声認識処理を実行する場合、選択結果特定部24もリアルタイムで音声認識処理の結果を用いて選択発話内から比較対象語句と対応する語句の検出を行ってもよい。その結果、対応する語句が検出されれば、その結果に基づいて選択結果特定部24は選択結果を特定できるので、その時点で音声認識部23による音声認識処理を中断してもよい。こうすれば、ユーザーが発話を終了した後、間を置かずに適切なタイミングでエージェントの発言を再生させることができ、音声認識処理による会話の遅延を回避できる。さらに、選択結果の特定ができた後にユーザーの発話の終了が検出できない状態が所定時間続いた場合、エージェント処理部21は次の発言の再生を開始してもよい。選択結果の特定ができていれば、ユーザーの発話の終了が検出できない場合であっても、自然にユーザーの選択発話を受けた次の会話を提示することができる。
具体的なタイミング制御について、図4を例として説明する。図4は、ユーザーが行った選択発話の一例を示している。この図の例では、ユーザーは選択肢が提示されたタイミング(時刻t0)から少し間を空けて選択発話を始め(時刻t1)、さらに選択発話中においても冒頭にフィラーの発声(すなわち、言語的に意味をなさない発声)をしてから(時刻t2)、選択した選択肢に対応するラベルを示す語句(「イチ」)を発話している。この語句自体の発話は時刻t3に終了しているが、その後もユーザーは発話を続け、時刻t4に発話を終了している。このような場合において、選択結果特定部24は、時刻t3を経過した後、それまでに取得された音声信号に対する音声認識処理の結果を用いて、ユーザーが1番の選択肢を選択したことを特定できる。この特定処理が時刻t4よりも前に完了すれば、エージェント処理部21はユーザーを待たせずにユーザーの発話に対するエージェントの応答を出力することができる。この場合、音声認識部23は、選択結果特定部24が選択結果の特定を完了した時点で、それ以降の選択発話に対する音声認識処理を中断してもよい。また、エージェント処理部21は、時刻t3までに得られた音声信号を用いて、ユーザーの感情の評価処理を実行してもよい。
なお、エージェント処理部21は、選択結果特定部24が選択結果として特定した発話部分(図4の例における時刻t2から時刻t3まで)とその前後の部分に対して、それぞれ独立に感情の評価処理を実行してもよい。これにより、ユーザーが選択を迷っている状態、決定した選択内容を発話している状態、及び発話し終えた後の状態のそれぞれについて感情の評価を行うことができる。なお、エージェント処理部21は、これらの状態の全てについて感情の評価処理を行うのではなく、一部の状態についてのみ感情の評価処理を実行してもよい。
また、エージェントの発言をエージェント処理部21が音声として再生している間に、ユーザーがその発言を遮って自分の発言を始めたい場合がある。特にエージェントの発言時間が長くなると、このような場合が生じ得る。また、エージェントの発言が複数の選択肢を順に提示するものである場合、ユーザーが最初の方に提示された選択肢を選択しようとしているのであれば、ユーザーは後の選択肢を聞かずに選択発話を開始したいこともあると考えられる。そこで音声認識部23は、エージェントの発言が再生されている間にも、ユーザーの発話を監視し、発話内容の認識処理を実行してもよい。
音声認識部23は、特にユーザーがエージェントの発言を遮って発話をする可能性のある状態に限って、上述したような監視処理を実行してもよい。例えばエージェント処理部21が再生しようとするエージェントの発言が所定の長さ未満であれば、音声認識部23はエージェントの発言が完了するまでユーザーの発話は無視することとし、所定の長さ以上の場合にユーザーの発話を監視してもよい。この場合の所定の長さは、例えば再生時間を単位として決定されてもよいし、語数、モーラ数などによって決定されてもよい。
さらに音声認識部23は、ユーザーの発話の検出処理の内容を時間とともに変化させてもよい。具体的に、エージェントが発言を開始したばかりの状態では、ユーザーがその発言を遮りたい場合は少ないと想定される。一方で、エージェントの発言がある程度続いていると、ユーザーがエージェントの発言を遮って自分の発話を開始したいという欲求は高まると考えられる。そこで、音声認識部23は、エージェントの発言開始時を起算点として、所定の長さの発言が再生されるまではユーザーの発話の検出を行わず、所定の長さの発言が再生されたタイミング以降、ユーザーの発話を監視してもよい。また、監視自体はエージェントの発言開始時から開始するが、ユーザーがエージェントの発言を遮る発話を行ったと検出する検出基準を、所定の長さの発言がされる前後で変更してもよい。具体的に、例えばエージェント処理部21は、エージェントが所定の長さの発言を終えるまでは、ユーザーが「やめて」などの予め定められた語句を発話したことを音声認識部23が検出した場合に限ってエージェントの発言を中止することとし、エージェントが所定の長さを超えて発言している状態では、ユーザーが何らかの発話を行ったと判定された場合にエージェントの発言を中止してもよい。
以下、本実施形態に係る情報処理装置1が実行する処理の流れの一例について、図5のフロー図を用いて説明する。
まずエージェント処理部21は、ユーザーに対する質問、及びその回答候補となる複数の選択肢を表示装置14の画面に表示させてユーザーに提示する(S1)。その後、音声信号取得部22による音声信号の取得、及び音声認識部23による取得された音声信号に対する音声認識処理が開始される(S2)。ユーザーが選択発話を行っている間、所定時間が経過するごとに、音声認識部23は、ユーザーの発話が終了したか否かを判定する(S3)。具体的に音声認識部23は、ユーザーの音声が一定時間検出できなかったり、S1の選択肢の提示から所定時間以上の時間が経過したりした場合に、ユーザーの発話が終了したと判定する。
ユーザーの発話が終了していなければ、選択結果特定部24がユーザーの選択結果を特定済みか否か判定する(S4)。特定済みであれば、S3に戻ってユーザーの発話の終了が検出されるまで処理が繰り返される。まだ特定済みでなければ、選択結果特定部24は、それまでに得られる音声認識処理の結果を辞書に含まれる比較対象語句と対比して、選択結果の特定を試みる(S5)。選択結果が特定できれば、選択結果特定部24はその選択結果をエージェント処理部21に対して出力する(S6)。その後、S3に戻ってユーザーの発話が終了したか否かの判定が行われる。
S3でユーザーの発話が終了した場合、エージェント処理部21はそれまで得られた音声信号に基づいてユーザーの感情を評価する評価処理を実行する(S7)。そして、S6で出力されるユーザーの選択結果と、S7における感情の評価処理の結果に基づいて、エージェントの次の発言内容を決定し、出力する(S8)。これにより、ユーザーの選択に応じた会話が行われる。
なお、以上の説明ではエージェント処理部21がユーザーに選択肢を提示する場合の処理について説明したが、これに限らず、エージェント処理部21は選択肢を提示せずにユーザーに任意の回答が可能な質問を提示してもよい。また、エージェント処理部21は、まず任意の回答が可能な質問をユーザーに提示し、これに対するユーザーの回答の認識に失敗した場合に、その質問に対する回答候補の選択肢を提示するようにしてもよい。
以上説明した本実施形態に係る情報処理装置1によれば、選択肢を提示することでユーザーの回答内容を絞り込むことができ、誤認識の可能性を低減できる。その一方で、ユーザーが選択肢の語句そのものを回答しない場合であっても、ユーザーの回答がどの選択肢を選択するものなのかを特定できるので、ユーザーに自然な発言での回答を促すことができる。
なお、本発明の実施の形態は、以上説明したものに限られない。以上の説明では選択肢はエージェントによる質問とともに提示されることとしたが、情報処理装置1は、エージェントによらずに単にユーザーに質問と選択肢を提示してもよい。
また、以上の説明ではユーザーのすぐそばにあるローカルの情報処理装置1がエージェントの発言内容の決定、音声認識処理、選択結果の特定、感情の評価処理などの処理を全て実行することとしたが、これらの処理の一部、又は全部は通信ネットワークを介して接続されたサーバ装置によって実行されてもよい。特にサーバ装置が選択肢を決定し、ローカルの端末装置から得られる音声信号に対する音声認識処理を行って選択結果を特定する場合、このサーバ装置が本発明における情報処理装置として機能することになる。
1 情報処理装置、11 制御部、12 記憶部、13 インタフェース部、14 表示装置、15 マイクロホン、16 スピーカー、17 カメラ、21 エージェント処理部、22 音声信号取得部、23 音声認識部、24 選択結果特定部。

Claims (16)

  1. 複数の選択肢をユーザーに提示する選択肢提示部と、
    前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部と、
    前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部と、
    前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行う出力部と、
    を含み、
    前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
    ことを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の語句に関連する語句、及び当該選択肢の語句を他の言語に翻訳した語句のいずれか少なくとも一つを含む
    ことを特徴とする情報処理装置。
  3. 請求項1に記載の情報処理装置において、
    前記選択肢提示部は、前記複数の選択肢のそれぞれに対して、当該選択肢を識別するラベルを付加して前記ユーザーに提示し、
    前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢に付加されたラベルを示す語句を含む
    ことを特徴とする情報処理装置。
  4. 請求項1に記載の情報処理装置において、
    前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の表示態様を示す語句を含む
    ことを特徴とする情報処理装置。
  5. 請求項4に記載の情報処理装置において、
    前記選択肢の表示態様を示す語句は、前記選択肢の表示位置、表示順序、及び、表示色のいずれか少なくとも一つを含む
    ことを特徴とする情報処理装置。
  6. 請求項1に記載の情報処理装置において、
    前記選択結果特定部は、前記発話内容に含まれる語句が、前記辞書に含まれる語句の一部と一致する場合に、両者が対応すると判定する
    ことを特徴とする情報処理装置。
  7. 請求項1に記載の情報処理装置において、
    前記選択結果特定部は、前記発話内容に含まれる語句と前記辞書に含まれる語句との間のずれが予め定められたパターンに該当する場合に、両者が対応すると判定する
    ことを特徴とする情報処理装置。
  8. 請求項に記載の情報処理装置において
    記出力部は、前記経過時間を用いて前記ユーザーの感情を評価する際に、前記選択結果特定部が特定する選択肢が前記ユーザーに提示された際の提示順序に応じて、評価基準を変化させる
    ことを特徴とする情報処理装置。
  9. 請求項1に記載の情報処理装置において、
    ユーザーに提示すべき発言を音声で再生する再生部をさらに含み、
    前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止する
    ことを特徴とする情報処理装置。
  10. 請求項に記載の情報処理装置において、
    前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
    ことを特徴とする情報処理装置。
  11. 請求項に記載の情報処理装置において、
    前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
    ことを特徴とする情報処理装置。
  12. ユーザーに提示すべき発言を音声で再生する再生部と、
    前記ユーザーの発話内容を認識する音声認識部と、
    を含み、
    前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止し、
    前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
    ことを特徴とする情報処理装置。
  13. 請求項12に記載の情報処理装置において、
    前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
    ことを特徴とする情報処理装置。
  14. 複数の選択肢をユーザーに提示するステップと、
    前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識するステップと、
    前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定するステップと、
    前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行うステップと、
    を含み、
    前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
    ことを特徴とする情報処理方法。
  15. 複数の選択肢をユーザーに提示する選択肢提示部、
    前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部
    記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部、及び、
    前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行う出力部、
    としてコンピュータを機能させるためのプログラムであって、
    前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
    プログラム
  16. 請求項15に記載のプログラムを記憶した、コンピュータ読み取り可能な情報記憶媒体。
JP2018510188A 2016-04-07 2016-04-07 情報処理装置 Active JP6654691B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/061385 WO2017175351A1 (ja) 2016-04-07 2016-04-07 情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2017175351A1 JPWO2017175351A1 (ja) 2018-08-02
JP6654691B2 true JP6654691B2 (ja) 2020-02-26

Family

ID=60000927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018510188A Active JP6654691B2 (ja) 2016-04-07 2016-04-07 情報処理装置

Country Status (3)

Country Link
US (1) US10839800B2 (ja)
JP (1) JP6654691B2 (ja)
WO (1) WO2017175351A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2997760A1 (en) * 2017-03-07 2018-09-07 Salesboost, Llc Voice analysis training system
JP2022051970A (ja) 2019-02-01 2022-04-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7388006B2 (ja) * 2019-06-03 2023-11-29 コニカミノルタ株式会社 画像処理装置及びプログラム
CN110570866A (zh) * 2019-09-11 2019-12-13 百度在线网络技术(北京)有限公司 语音技能创建方法、装置、电子设备和介质
JP7274210B2 (ja) * 2019-09-24 2023-05-16 学校法人早稲田大学 対話システムおよびプログラム
KR20210059367A (ko) 2019-11-15 2021-05-25 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
WO2021230100A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2023068067A1 (ja) 2021-10-18 2023-04-27 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
US6067521A (en) * 1995-10-16 2000-05-23 Sony Corporation Interrupt correction of speech recognition for a navigation device
JP2006343661A (ja) 2005-06-10 2006-12-21 Sanyo Electric Co Ltd 音声認識装置および音声認識プログラム
JP4736632B2 (ja) 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
JP2009271258A (ja) 2008-05-02 2009-11-19 Toshiba Corp 情報選択装置
JP2010054549A (ja) 2008-08-26 2010-03-11 Gifu Univ 回答音声認識システム
JP2011171948A (ja) 2010-02-17 2011-09-01 Advance:Kk デジタルテレビの双方向システム
EP2498250B1 (en) * 2011-03-07 2021-05-05 Accenture Global Services Limited Client and server system for natural language-based control of a digital network of devices
JP2013114020A (ja) 2011-11-29 2013-06-10 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法
US20140046891A1 (en) * 2012-01-25 2014-02-13 Sarah Banas Sapient or Sentient Artificial Intelligence
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content

Also Published As

Publication number Publication date
WO2017175351A1 (ja) 2017-10-12
JPWO2017175351A1 (ja) 2018-08-02
US10839800B2 (en) 2020-11-17
US20190096401A1 (en) 2019-03-28

Similar Documents

Publication Publication Date Title
JP6654691B2 (ja) 情報処理装置
CN106373569B (zh) 语音交互装置和方法
JP4085130B2 (ja) 感情認識装置
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
JP6585733B2 (ja) 情報処理装置
CN107403011B (zh) 虚拟现实环境语言学习实现方法和自动录音控制方法
JPWO2017187712A1 (ja) 情報処理装置
CN109817244B (zh) 口语评测方法、装置、设备和存储介质
JP4729902B2 (ja) 音声対話システム
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
CN113112575B (zh) 一种口型生成方法、装置、计算机设备及存储介质
JP2010197644A (ja) 音声認識システム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
Pandey et al. Effects of speaking rate on speech and silent speech recognition
Furui Toward the ultimate synthesis/recognition system
Black et al. An empirical analysis of user uncertainty in problem-solving child-machine interactions
KR20130137367A (ko) 이미지 기반 도서 관련 서비스 제공 시스템 및 방법
KR20230105046A (ko) 음성 인터페이스 stt 기반 자막 생성 장치, 및 음성 인터페이스 stt 기반 자막 생성 방법
KR20230025742A (ko) 외국어 음성의 청취 난이도 평가 방법, 장치 및 프로그램
WO2024079605A1 (en) Assisting a speaker during training or actual performance of a speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200130

R150 Certificate of patent or registration of utility model

Ref document number: 6654691

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150