JP2019090942A - 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
JP2019090942A
JP2019090942A JP2017220103A JP2017220103A JP2019090942A JP 2019090942 A JP2019090942 A JP 2019090942A JP 2017220103 A JP2017220103 A JP 2017220103A JP 2017220103 A JP2017220103 A JP 2017220103A JP 2019090942 A JP2019090942 A JP 2019090942A
Authority
JP
Japan
Prior art keywords
response
user
unit
information processing
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017220103A
Other languages
English (en)
Inventor
木付 英士
Eiji Kitsuke
英士 木付
慧 渡部
Akira Watanabe
慧 渡部
岩野 裕利
Hirotoshi Iwano
裕利 岩野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2017220103A priority Critical patent/JP2019090942A/ja
Priority to US16/188,915 priority patent/US20190147851A1/en
Publication of JP2019090942A publication Critical patent/JP2019090942A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声認識に失敗した場合でも、操作者が使用した言語に応じたメッセージを出力することができる技術を提供する。【解決手段】ユーザの発話に係る入力発話情報を取得し、上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択するように構成されており、上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する。【選択図】図3

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、および情報処理プログラムに関する。
従来、操作者の音声を認識し、入力された音声がどの言語であるかを判定し、判定した言語を用いて操作者に対するメッセージを出力する技術が知られている(例えば、特許文献1参照)。
特開2001−175278号公報(2001年6月29日公開)
しかしながら、上述のような従来技術は、音声認識に失敗した場合には、操作者が使用した言語に応じたメッセージを出力することができないという問題がある。
本発明の一態様は、音声認識に失敗した場合でも、操作者が使用した言語に応じたメッセージを出力することができる技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、発話情報取得部と、発話情報提示部と、制御部とを備えた情報処理装置であって、上記制御部は、ユーザの発話に係る入力発話情報を、上記発話情報取得部を介して取得し、上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を、上記発話情報提示部を介して提示するように構成されており、上記ユーザとの上記対話を開始する前に上記第2の応答を提示する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する構成である。
本発明の一態様によれば、音声認識に失敗した場合でも、操作者が使用した言語に応じたメッセージを出力することができる。
実施形態1に係る情報処理システム100の概略構成を示すブロック図である。 実施形態2および3に係る情報処理システム200の概略構成を示すブロック図である。 実施形態4に係る情報処理システム300の概略構成を示すブロック図である。 情報処理システム300の処理の流れを示すフローチャートである。 第1の応答群の一例を示す図である。 実施形態5に係る情報処理システム400の概略構成を示すブロック図である。 情報処理装置として利用可能なコンピューの構成を例示したブロック図である。
〔実施形態1〕
以下、本発明の実施形態1について、詳細に説明する。
〔情報処理システムの概要〕
図1は、実施形態1に係る情報処理システム100の概略構成を示すブロック図である。図1に示すように、情報処理システム100は、第1のサーバ(情報処理装置)110、第2のサーバ150、端末装置180を備えている。
情報処理システム100は、端末装置180に入力されたユーザの発話音声を、第1のサーバ110および第2のサーバ150で処理して、応答音声を端末装置180から出力することで、ユーザと音声による対話を行うシステムである。
(端末装置180の構成)
端末装置180は、端末制御部185、端末通信部181、音声入力部182、および音声出力部183を備えている。
端末制御部185は、端末装置180の各部を統括的に制御する制御部としての機能を備えた演算装置である。端末制御部185は、例えば1つ以上のプロセッサ(例えばCPUなど)が、1つ以上のメモリ(例えばRAMやROMなど)に記憶されているプログラムを実行することで端末装置180の各構成要素を制御する。
端末通信部181は、外部機器と通信可能に構成されており、例えばWi−Fi(登録商標)などの無線通信回路を備えている。
音声入力部182は、ユーザの発話に係る入力発話情報を端末通信部181を介して外部機器に送信する。端末通信部181を介して外部機器に送信される入力発話情報は、生の音声データであっても、音声認識を行った結果のデータ、例えばテキスト情報などであってもよい。また、音声入力部182は、ユーザが発する声を集音し、集音した声を電子的な波形データに変換し、当該波形データをユーザの発話に係る入力発話情報として、端末通信部181を介して外部機器に送信してもよい。
音声出力部183は、音声データを音波として出力する。音声出力部183は、本実施形態では、人の耳が認識できる音波範囲の音を出力する。音声出力部183は、端末通信部181を介して外部機器から取得した音声データに基づく音をストリーミングにより出力する。音声出力部183は、第1のサーバ110の通信部115を介して提示された出力発話情報を、端末通信部181を介して取得し、出力発話情報に基づく音をストリーミングにより出力してもよい。なお、出力発話情報は、生の音声データであっても、音声合成を行うためのデータ、例えばテキスト情報などであってもよく、音声出力部183が音声合成を行う機能を有している構成であってもよい。
なお、図示は省略するが、端末装置180は、テストメッセージや画像を表示する表示部を備え、当該表示部に端末通信部181を介して第1のサーバ110の通信部115から取得した出力情報をテキスト表示することで、ユーザと「対話」する構成であってもよい。
(第1のサーバ110の構成)
第1のサーバ110は、通信部115と、制御部120と、を備えている。
通信部115は、外部機器と通信可能に構成されており、例えばWi−Fi(登録商標)などの無線通信回路を備えている。第1のサーバ110は、通信部115を介して、端末装置180および第2のサーバ150と通信する。通信部115は、端末装置180の端末通信部181から送信される、ユーザの声に基づく波形データを受信する。情報処理装置としての第1のサーバ10が、ネットワーク上のサーバに実装されている場合においては、このように、通信部115は、ユーザの声に基づく波形データである発話情報を取得する発話情報取得部として機能する。なお、単体の装置が情報処理システム100の機能を有する構成においては、通信部115ではなく、音声入力部182が発話情報取得部としての機能を有していてもよい。
また、通信部115は、第2のサーバ150に、端末装置180から受信したユーザの声に基づく波形データを送信する。また、通信部115は、第2のサーバ150によって波形データが処理された結果の処理データを第2のサーバ150から受信する。
また通信部115は、第2のサーバ150から受信した音声に変換された応答フレーズを、通信部115を介して端末装置180に送信する。情報処理装置としての第1のサーバ10が、ネットワーク上のサーバに実装されている場合においては、このように、通信部115は、音声に変換された応答フレーズを提示する発話情報提示部として機能する。なお、単体の装置が、端末装置180および第1のサーバ110の機能、または、情報処理システム100の機能の全てを有する構成においては、通信部115ではなく、音声出力部183が発話情報提示部としての機能を有していてもよい。発話情報提示部としての音声出力部183は、出力情報をテキスト表示する表示部であってもよい。なお、単体の装置が、端末装置180および第1のサーバ110の機能を有する構成について、後述の実施形態5で詳しく説明する。
制御部120は、第1のサーバ110の各部を統括的に制御する機能を備えている演算装置である。制御部120は、例えば1つ以上のプロセッサ(例えばCPUなど)が、1つ以上のメモリ(例えばRAMやROMなど)に記憶されているプログラムを実行することで第1のサーバ110の各構成要素を制御する。
制御部120は、属性判定部121と、応答選択部と、を備えている。
属性判定部121は、通信部115を介して端末装置180から取得したユーザの発話に係る入力発話情報を参照して、ユーザの属性を判定する。属性判定部121は、例えば、ユーザの使用言語及び出身地の少なくとも何れかを判定する。属性判定部121は、例えば、ユーザの発話に係る入力発話情報を参照して、ユーザが使用した言語を判定する。また、属性判定部121は、ユーザの声に基づく波形データを参照して、ユーザの方言(なまり)、年齢、および性別の少なくとも何れかを判定することができてもよい。また、属性判定部121は、ユーザの感情を判定することができてもよい。
属性判定部121は、機械学習を用いて波形データに応じた判定を行ってもよい。また、属性判定部121は、各属性の基本となるデータと、ユーザの声に基づく波形データとの比較によってユーザの属性を判定してもよい。また、属性判定部121は、複数の言語のそれぞれの基本データと、ユーザの声に基づく波形データとを比較して、各言語との類似度をそれぞれ算出し、類似度が所定の閾値以上であるか否かを判定してもよい。
応答選択部は、第1のサーバ110が対応可能な言語のそれぞれに対して設けられる。図1は、第1のサーバ110が第1言語、第2言語、第3言語の3つの言語に対応可能な場合を例に示しており、制御部120は、第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124を備えている。
第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124は、静的または動的なテキスト辞書とのテキストマッチングを用いて、ユーザが発話したユーザフレーズを特定する。第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124は、従来公知の編集距離等の手法を用いて、テキストの類似度でユーザフレーズとテキスト辞書とのマッチング判定をする。
また、第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124は、特定したユーザフレーズに対応する応答フレーズを選択する。なお、第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124は、特定したユーザフレーズによっては、対応する応答フレーズはないと判定することもできる。
(第2のサーバ150の構成)
第2のサーバ150は、通信部155と、サーバ制御部160と、を備えている。
通信部155は、外部機器と通信可能に構成されており、例えばWi−Fi(登録商標)などの無線通信回路を備えている。第2のサーバ150は、通信部155を介して第1のサーバ110と通信する。
サーバ制御部160は、第2のサーバ150の各部を統括的に制御する機能を備えている演算装置である。サーバ制御部160は、例えば1つ以上のプロセッサ(例えばCPUなど)が、1つ以上のメモリ(例えばRAMやROMなど)に記憶されているプログラムを実行することで第2のサーバ150の各構成要素を制御する。
サーバ制御部160は、音声認識部であるASR(Automatic Speech Recognition)と、音声合成部であるTTS(Text to Speech)164と、を含んでいる。
ASRは、第2のサーバ150で対応可能な言語のそれぞれに対して設けられる。第2のサーバ150が、例えば、第1言語、第2言語、第3言語の3つの言語に対応可能な場合には、図1に示すように、サーバ制御部160は、第1言語ASR161、第2言語ASR162、第3言語ASR163を含むように構成される。
第1言語ASR161、第2言語ASR162、第3言語ASR163は、通信部155を介して第1のサーバ110から取得したユーザの声に基づく波形データの音声認識を行って、テキストに変換する。第1言語ASR161、第2言語ASR162、第3言語ASR163は、ユーザの声に基づく波形データの音声認識を行って、テキストに変換する際に、信頼度を属性として算出する構成であってもよい。
サーバ制御部160は、第1のサーバ110の属性判定部121が判定した言語に応じて、第1言語ASR161、第2言語ASR162、第3言語ASR163のうち適宜の1つのASRで音声認識処理を行う構成であってもよい。また、サーバ制御部160は、第1のサーバ110から取得したユーザの声に基づく波形データを、第1言語ASR161、第2言語ASR162、第3言語ASR163に、並列もしくは連続的に流して処理を行う構成であってもよい。
TTS164は、テキストを音声に変換する。TTS164は、通信部155を介して第1のサーバ110から取得した、第1言語応答選択部122、第2言語応答選択部123、および第3言語応答選択部124の少なくとも何れか1つが選択した応答フレーズのテキストを音声に変換する。TTS164によって音声に変換された応答フレーズは、通信部155を介して第1のサーバ110に送信される。
〔多言語対話処理〕
音声入力部182を介してユーザの発話音声が入力されると、端末制御部185は、音声入力部182の入力を参照してユーザの発話に係る入力発話情報を取得する。端末制御部185は、取得した入力発話情報を端末通信部181を介して第1のサーバ110に送信する。
第1のサーバ110の制御部120は、発話情報取得部である通信部115を介してユーザの発話に係る入力発話情報を取得し、属性判定部121の機能により、ユーザの属性を判定する。例えば、属性判定部121は、ユーザの言語を判定し、判定結果を、ユーザの発話に係る入力発話情報と共に、通信部115を介して第2のサーバ150に送信する。
第2のサーバ150のサーバ制御部160は、通信部155を介して取得したユーザの属性に関する情報を参照して、第1言語ASR161、第2言語ASR162、第3言語ASR163の少なくとも何れか一つの音声認識機能により、ユーザの発話に係る入力発話情報をテキストのユーザフレーズに変換する。
サーバ制御部160は、属性判定部121がもっとも類似していると判定した言語に応じたASRで音声認識を行う構成であってもよい。また、サーバ制御部160は、属性判定部121が算出した各言語の言語類似度を参照して、言語類似度が所定の閾値以上の言語のASRで音声認識を実行してもよい。
サーバ制御部160は、第1言語ASR161、第2言語ASR162、及び第3言語ASR163の少なくとも何れか1つの機能により生成されたテキストのユーザフレーズを、通信部155を介して第1のサーバ110に送信する。なお、第1言語ASR161、第2言語ASR162、及び第3言語ASR163は、ユーザの発話に係る入力発話情報をテキストのユーザフレーズに変換する際にテキストの信頼度を算出する構成であってもよく、サーバ制御部160は、テキストのユーザフレーズとともに、当該テキストの信頼度を第1のサーバ110に送信する構成であってもよい。
第1のサーバ110の制御部120は、通信部115を介して、テキストのユーザフレーズを取得する。制御部120は、テキストのユーザフレーズの言語に対応する第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124の何れか1つの機能により、ユーザフレーズを特定し、ユーザフレーズおよびユーザの会話のシナリオに応じた応答内容の応答フレーズのテキストを選択する。
制御部120は、通信部115を介して複数言語のテキストのユーザフレーズを取得した場合には、言語毎に対応する第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124でそれぞれユーザフレーズを特定し、ユーザフレーズおよびユーザの会話のシナリオに応じた応答フレーズを選択する。第1言語応答選択部122、第2言語応答選択部123、第3言語応答選択部124では、テキストのユーザフレーズと、特定したユーザフレーズとのテキスト類似度、および、テキストのユーザフレーズとともに第2のサーバ150から受信したテキストの信頼度を参照して、最適な応答フレーズのテキストを選択する。
なお、それぞれの応答選択部122,123,124は、属性判定部121によって判定されたユーザの言語だけではなく、方言、性別、年齢、感情等の様々なユーザ属性に応じた応答フレーズを選択することができてもよい。
制御部120は、選択した応答フレーズのテキストを通信部115を介して第2のサーバ150に送信する。
第2のサーバ150のサーバ制御部160は、通信部155を介して、応答フレーズのテキストを取得し、TTS164の機能により、応答フレーズを音声に変換する。サーバ制御部160は、音声に変換された応答フレーズを通信部155を介して第1のサーバ110に送信する。
第1のサーバ110の制御部120は、第2のサーバ150から受信した音声に変換された応答フレーズ(出力発話情報)を、発話情報提示部である通信部115を介して端末装置180に送信する。
端末装置180の端末制御部185は、出力発話情報を、端末通信部181を介して取得し、取得した出力発話情報を参照して、音声出力部183に音声を出力させる。端末制御部185は、出力発話情報を、音声出力部183からストリーミングによって出力する。
これらの構成によれば、言語選択等の事前情報がなくても、ユーザが使用した言語に応じたメッセージを出力することができる。
〔実施形態2〕
本発明の実施形態2について、以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
図2は、実施形態2に係る情報処理システム200の概略構成を示すブロック図である。図2に示すように、情報処理システム200は、第1のサーバ210の制御部220が、対応言語のそれぞれ応じた応答選択部を備えるのではく、応答選択部222が対応可能言語の全てに応じた応答を選択する点で実施形態1とは異なる。
第1のサーバ210の制御部220は、通信部115を介して、テキストのユーザフレーズを取得すると、応答選択部222の機能により、当該テキストを、対応可能なすべての言語に対してテキストマッチングを行う。
応答選択部222は、特定したユーザフレーズとのテキスト類似度を参照して、適当な応答言語と、応答フレーズとを選択する。なお応答選択部222は、テキスト類似度とともに、ASRが算出した信頼度や、属性判定部121が算出した言語類似度を参照して、適当な応答言語と、応答フレーズとを選択してもよい。
また、応答選択部222は、属性判定部121によって判定されたユーザの言語だけではなく、方言、性別、年齢、感情等の様々なユーザ属性に応じた応答フレーズを選択することができてもよい。
制御部320は、選択した応答言語に関する情報と、応答フレーズのテキストとを通信部115を介して第2のサーバ150に送信する。
第2のサーバ150のサーバ制御部160は、通信部155を介して、応答フレーズのテキストを取得し、TTS164の機能により、適切な応答言語で応答フレーズを音声に変換する。サーバ制御部160は、音声に変換された応答フレーズを通信部155を介して第1のサーバ210に送信する。
第1のサーバ210の制御部220は、第2のサーバ150から受信した音声に変換された応答フレーズを、通信部115を介して端末装置180に送信する。
端末装置180は、端末通信部181を介して声に変換された応答フレーズを受信し、受信した応答フレーズを音声出力部183から出力するストリーミングを行う。
これらの構成によれば、ASR後のテキストのユーザフレーズをテキストマッチングすることで、ユーザが使用した言語を推定することができる。よって、言語選択等の事前情報がなくても、ユーザが使用した言語に応じたメッセージを出力することができる。
〔実施形態3〕
本発明の実施形態3について、以下に説明する。なお、説明の便宜上、上記実施形態1または2にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
実施形態3に係る情報処理システム200の構成は、図2に示した実施形態2の情報処理システム200と同様であり、その説明を省略する。
応答選択部222の機能により、通信部115を介して取得したテキストのユーザフレーズを、対応可能なすべての言語に対してテキストマッチングを行った結果、十分に類似していると判定される言語が複数検出される場合がある。このような場合に、実施形態3に係る情報処理システム200の第1のサーバ210は、以下のような処理を行う。
制御部220の応答選択部222は、テキストマッチングにより特定したユーザフレーズと、テキストとのテキスト類似度に、ASRが算出した信頼度を掛け合わせ、ユーザフレーズの言語を特定する。
また、制御部220の応答選択部222は、テキストマッチングを行った結果、十分に類似していると判定された複数の言語のうち、属性判定部121が算出した言語類似度が最も高い言語のユーザフレーズを選択してもよい。
また、応答選択部222は、属性判定部121によって判定されたユーザの言語だけではなく、方言、性別、年齢、感情等の様々なユーザ属性に応じた応答フレーズを選択することができてもよい。
これらの構成によれば、言語選択等の事前情報がなくてもユーザが使用した言語に応じたメッセージを出力することができる。
〔実施形態4〕
本発明の実施形態4について、以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
図3は、実施形態4に係る情報処理システム300の概略構成を示すブロック図である。図3に示すように、情報処理システム300は、第1のサーバ310の制御部320が、聞き返し応答選択部323を備える点で実施形態2に係る情報処理システム200とは異なる。
応答選択部222は、第1のサーバ310の不図示の記憶部に予め記憶された第1の応答群に含まれるユーザとの対話を行うための第1の応答を選択する。図5は、第1の応答群の一例を示す図である。
聞き返し応答選択部323は、応答選択部222が発話情報取得部である通信部115を介して取得したユーザの発話に係る入力発話情報に対する応答を第1の応答群から選択できなかった場合に、ユーザにその旨を伝える適宜の聞き返し応答、または、ユーザに再度の発話を促すための応答を、第1の応答群と異なる聞き直し応答群に含まれる第2の応答から選択する。応答選択部222がユーザの発話に係る入力発話情報に対する応答を選択できない場合は、例えば、複数言語に対してテキストマッチングした結果、所定の閾値以上のテキスト類似度でマッチングするフレーズが見つからず、ユーザフレーズ、またはユーザの言語が特定できなかった場合である。
聞き返し応答選択部323は、属性判定部121がユーザの言語であると判定した言語で、例えば「もう一度いってください」というフレーズを(例えばユーザの言語が英語であると判定された場合には、「Could you say that again?」というフレーズを)聞き直し応答群から選択する。聞き直し応答群には、「もう一度いってください」というユーザに再度の発話を促す第2の応答に限らず、「わかりません」という応答が含まれていてよい。
また、聞き返し応答選択部323は、応答選択部222が算出したテキスト類似度と、属性判定部121の判定結果と、を参照して、複数の言語の「もう一度いってください」をユーザに再度の発話を促す第2の応答として選んで、複数の言語で順次ユーザに再度の発話を促してもよい。
聞き返し応答選択部323は、ユーザの言語だけではなく、属性判定部121が推定したユーザの様々な属性に基づいて、第2の応答のフレーズを選択したり、声音や音量を変えたりしてもよい。例えば、ユーザが大阪弁を使用したと判断された場合には、聞き返し応答選択部323は、「もういっぺん言うとくんなはれ」のように、大阪弁のフレーズを選択してもよい。また、ユーザが子供だと判断された場合には、聞き返し応答選択部323は、「もう一度いってください」というフレーズの代わりに「もう一度言ってくれるかな?」というような子供向けのフレーズを選択してもよい。また、ユーザがお年寄りだと判断された場合には、聞き返し応答選択部323は、第2の応答の音量を大きく設定してもよい。また、聞き返し応答選択部323は、推定されたユーザの性別とは異なる性別の声で、例えば、男性だと判断された場合には女性の声で、女性だと判断された場合には男性の声で、第2の応答を出力する設定をしてもよい。
また、聞き返し応答選択部323は、属性判定部121が推定したユーザの感情に応じて、第2の応答の発話口調を変えてもよい。例えば、聞き返し応答選択部323は、ユーザが楽しそうな口調で発話した場合には、ユーザの楽しそうな感情に同調すべく、楽しそうな口調で第2の応答を出力する設定をしてもよい。また、聞き返し応答選択部323は、ユーザが怒っているような口調で発話した場合には、丁寧な文脈の第2の応答のフレーズを選択し、柔らかい口調で選択した第2の応答フレーズを出力する設定をしてもよい。
〔情報処理システム300の処理〕
図4は、情報処理システム300による情報処理の流れの一例を示すフローチャートである。図5は、第1のサーバ310に予め記憶された第1の応答群の例を示す図である。
(ステップS1)
端末装置180の音声入力部182にユーザの発話が入力されると、ユーザの発話に係る入力発話情報が端末通信部181を介して、第1のサーバ310に送信される。
(ステップS2)
第1のサーバ310の制御部320は、発話情報取得部である通信部115を介してユーザの発話に係る入力発話情報を取得し、取得した入力発話情報を、通信部115を介して第2のサーバ150に送信する。ユーザの発話に係る入力発話情報は、生の音声データ、例えばユーザの声に基づく波形データなどであっても、音声認識を行った結果のデータ、例えばテキスト情報などであってもよい。また、第2のサーバ150のサーバ制御部160は、通信部155を介して取得した入力発話情報を、第1言語ASR161、第2言語ASR162、第3言語ASR163のうち、ユーザの言語に応じたASRにより、テキストのユーザフレーズに変換する。
なお、第2のサーバ150のサーバ制御部160は、各ユーザフレーズとともにそれぞれの信頼度を算出することができてもよい。また、サーバ制御部160は、どのユーザフレーズの信頼度も所定の閾値を超えない場合には、ユーザフレーズにマッチする言語がないと判定してもよい、
(ステップS3)
サーバ制御部160は、ユーザの言語に応じたASRによりテキストに変換されたユーザフレーズを、通信部155を介して第1のサーバ310に送信する。サーバ制御部160は、ユーザフレーズとともに、その信頼度を、通信部155を介して第1のサーバ310に送信してもよい。また、サーバ制御部160は、ユーザフレーズにマッチする言語がない場合には、マッチする言語がない旨を、通信部155を介して第1のサーバ310に送信してもよい。
第1のサーバ310の制御部320は、通信部115を介して取得したテキストのユーザフレーズを、応答選択部222の機能により、複数言語でそれぞれ第1の応答群とテキストマッチングを行う。
(ステップS4)
制御部320は、応答選択部222のテキストマッチング機能により、ユーザフレーズにマッチする言語はあるか否かを判定する。ユーザフレーズにマッチする言語があると判定すると、制御部320は、ステップS4に進む。ユーザフレーズにマッチする言語がないと判定すると、制御部320は、ステップS6に進む。なお、制御部320は、ステップS3において、マッチする言語がない旨が第2のサーバ150から伝達された場合には、応答選択部222によるテキストマッチングを行うことなく、ステップS6に進んでもよい。
(ステップS5)
制御部320は、応答選択部222の機能により、ユーザの発話、及び当該ユーザとの会話のシナリオに応じて、第1の応答群に含まれる第1の応答を選択する。応答選択部222は、第1の応答群から、ユーザフレーズに最もマッチした意図に対応する応答フレーズを第1の応答として選択する。
(ステップS6)
制御部320は、ステップS2で取得したユーザの発話に係る入力発話情報を参照して、属性判定部121の機能により、ユーザとの会話のシナリオに依らずに、ユーザの属性(言語)の推定をユーザとの対話を開始する前に行う。
(ステップS7)
制御部320は、属性判定部121が算出した、複数の言語のそれぞれに対する入力発話情報の言語類似度を参照して、最も言語類似度(推定値)が高い言語が、ユーザが使用した言語であると推定する。そして、制御部320は、最も推定値が高い言語で、例えば「もう一度いってください」といった、ユーザに再度の発話を促すための第2の応答を選択する。制御部320は、例えば、ユーザが使用した言語を機械学習により推定してもよい。制御部320は、予め記憶された聞き直し応答群の中から、第2の応答を選択する。
また、図示は省略するが、制御部320は、応答を選択するステップ5において応答内容を選択できなかった場合に、属性を判定するステップ6の判定結果に応じて、第1の応答群とは異なる聞き直し応答群に含まれる応答内容を選択してもよい。
(ステップS8)
制御部320は、ステップS5で選択したユーザとの対話を行うための第1の応答か、ステップS7で選択したユーザに再度の発話を促すための第2の応答か、のいずれかの応答に係る出力発話情報を、通信部115を介して第2のサーバ150に送信する。第2のサーバ150のサーバ制御部160は、通信部155を介して取得したフレーズを、TTS164の機能により、テキストの言語で音声合成する。
(ステップS9)
サーバ制御部160は、音声合成された出力発話情報を通信部155を介して第1のサーバ310に送信する。第1のサーバ310の制御部320は、第2のサーバ150から受信した出力発話情報を、発話情報提示部である通信部115を介して端末装置180に送信する。端末装置180は、端末通信部181を介して取得した出力発話情報を音声出力部183から音声ストリーミングを行うことでユーザに提示する。
なお、第1のサーバ310の制御部320は、第1の応答群に含まれる第1の応答を発話情報提示部である通信部115を介して提示したら、そこからユーザと情報処理システム300との対話が開始された、と定義する。そして、ユーザとの対話を開始する前に第2の応答を選択する場合には、入力発話情報を参照して判定されたユーザの属性に応じて、第2の応答の内容を選択する。
このように、情報処理システム300では、応答選択部222が応答を選択できない場合、つまり、想定されたシナリオ通りの応答ができない場合には、ユーザに聞き返す等の対応を行うことができる。よって、音声認識に失敗した場合などで、ユーザの発話の意図を特定できない場合であっても、ユーザが使用した言語に応じた適切なメッセージを出力することができユーザとの対話を継続することができる。
図5は、制御部320が、応答選択部222のテキストマッチング機能により、ユーザフレーズに最もマッチした意図に対応する応答フレーズを応答群から選択する際に用いる、マッチングフレーズと、それに対応する応答フレーズとが書き込まれたテーブル(第1の応答群)の例を示す図である。図示は省略するが、第1のサーバ310には、図5に例を示したテーブルを記憶する記憶部が備えられている。応答選択部222は、マッチングフレーズと、それに対応する応答フレーズとが書き込まれたテーブルを参照して応答フレーズを選択する。
応答選択部222は、例えば「銀行に行きたい」というマッチングフレーズに対するユーザフレーズのテキスト類似度(編集距離)に応じて、「銀行はこの道をまっすぐ行った左手にあります。」という応答フレーズを選択してもよい。また、応答選択部222は、「銀行」または「ATM」、「行きたい」または「どこ」などの複数のキーワードのマッチングによるスコアリングに基づいて、ユーザとの会話のシナリオに応じた「銀行はこの道をまっすぐ行った左手にあります。」という応答フレーズを選択してもよい。
また、応答選択部222は、テキストマッチングにより言語を特定して、特定した言語に応じた応答フレーズを選択してもよい。応答選択部222は、例えばユーザフレーズが英語であることを特定し、「I'm looking for a bank.」というマッチングフレーズに対するユーザフレーズのテキスト類似度(編集距離)に応じて、「Go straight and you can find the bank on your left.」という応答フレーズを選択してもよい。また、応答選択部222は、「bank」または「ATM」、「look for」、「want」、「go」などの複数のキーワードのマッチングによるスコアに基づいて、ユーザとの会話のシナリオに応じた「Go straight and you can find the bank on your left.」という応答フレーズを選択してもよい。
〔実施形態5〕
本発明の実施形態5について、以下に説明する。なお、説明の便宜上、上記実施形態4にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
図6は、実施形態5に係る情報処理システム400の概略構成を示すブロック図である。図6に示すように、情報処理システム400は、端末装置480が、実施形態4に係る第1のサーバ310の機能を一体に備えている点で、実施形態4に係る情報処理システム300とは異なる。
単体の装置である端末装置480は、音声入力部182と、音声出力部183と、制御部320と、通信部115とを備えている。制御部320は、音声入力部182の入力を参照して、ユーザの発話に係る入力発話情報を取得する。
制御部320は、取得したユーザの発話に係る入力発話情報を、通信部115を介して第2のサーバ150に送信する。また、制御部320は、第2のサーバ150の第1言語ASR161、第2言語ASR162、第3言語ASR163のうち、ユーザの言語に応じたASRにより、テキストのユーザフレーズに変換された入力発話情報を、通信部115を介して取得する。
制御部320は、取得したテキストに変換されたユーザの発話に係る入力発話情報を参照して、ユーザとの対話を行うための第1の応答を応答選択部222の機能により選択するか、またはユーザに再度の発話を促すための第2の応答を聞き返し応答選択部323の機能により選択するかのいずれかの処理を行う。
制御部320は、選択した第1の応答または第2の応答に係る出力発話情報を参照して上記音声出力部に音声を出力させる。
また、制御部320は、ユーザとの対話を開始する前に第2の応答を選択する場合に、属性判定部121が入力発話情報を参照して判定したユーザの属性に応じて、第2の応答の内容を選択してもよい。
なお、図示は省略するが、端末装置480が、さらに第2のサーバ150の機能を一体に備えている構成でも良い。
これらの構成によれば、ユーザとの対話を行うための第1の応答を選択できなかった場合に、ユーザの属性に応じて、ユーザに再度の発話を促すための第2の応答を選択し応答する処理を端末装置480単体で行うことができる。よって、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを速やかに出力することができる。
〔実施形態6〕
上記各実施形態では、第1のサーバ110,210,310および第2のサーバ150の2つのサーバを用いる例を説明したが、第1のサーバ110,210,310および第2のサーバ150のそれぞれが有する各機能が、1つのサーバにて実現されていてもよく、2つ以上の複数のサーバにて実現されていてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
〔実施形態7〕
第1のサーバ110,210,310、第2のサーバ150、および端末装置180の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、第1のサーバ110,210,310、第2のサーバ150、および端末装置180のそれぞれを、図6に示すようなコンピュータ(電子計算機)を用いて構成することができる。
図6は、第1のサーバ110,210,310、第2のサーバ150、または端末装置180として利用可能なコンピュータ910の構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばプロセッサ(例えばCPU:Central Processing Unit等)、RAM(random access memory)、ハードディスクドライブであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、キーボード、マウス、タッチセンサなどであってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置920および出力装置930の双方の機能を有する装置を適用してもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
補助記憶装置914には、コンピュータ910を第1のサーバ110,210,310、第2のサーバ150、または端末装置180として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上記プログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ910を、第1のサーバ110,210,310、第2のサーバ150、または端末装置180が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。また、記録媒体に記録されているプログラムを、主記憶装置913上に展開することなく実行可能なコンピュータであれば、主記憶装置913を省略してもよい。なお、上記各装置(演算装置912、主記憶装置913、補助記憶装置914、入出力インターフェース915、通信インターフェース916、入力装置920、および出力装置930)は、それぞれ1つであってもよいし、複数であってもよい。
また、上記プログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る情報処理装置(第1のサーバ310)は、通信部(115)と、制御部(320)とを備えた情報処理装置(第1のサーバ310)であって、上記制御部(320)は、ユーザの発話に係る入力発話情報を、上記通信部(115)を介して取得し、上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を、上記通信部(115)を介して提示するように構成されており、上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する。
上記の構成によれば、ユーザとの対話を行うための第1の応答を選択できなかった場合に、属性判定処理の判定結果に応じて、ユーザに再度の発話を促すための第2の応答を選択するため、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを出力することができる。
本発明の態様2に係る情報処理装置(第1のサーバ310)は、上記態様1において、上記属性は、上記ユーザの使用言語及び出身地の少なくとも何れかである。
上記の構成によれば、音声認識に失敗した場合でも、ユーザの使用言語及び出身地に応じた聞き直し応答のメッセージを出力することができる。
本発明の態様3に係る情報処理装置(第1のサーバ310)は、上記態様2において、上記属性は、上記ユーザの年齢及び性別の少なくとも何れかである。
上記の構成によれば、音声認識に失敗した場合でも、ユーザの年齢及び性別の少なくとも何れかに応じた聞き直し応答のメッセージを出力することができる。
本発明の態様4に係る情報処理装置(第1のサーバ310)は、ユーザの発話に係る入力発話情報を取得する発話情報取得部(通信部115)と、上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択する応答選択部(122,123,124)と、選択した上記応答に係る出力発話情報を提示する発話情報提示部(通信部115)とを備え、上記応答選択部(122,123,124)は、上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する。
上記の構成によれば、ユーザとの対話を行うための第1の応答を選択できなかった場合に、属性判定処理の判定結果に応じて、ユーザに再度の発話を促すための第2の応答を選択するため、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを出力することができる。
本発明の態様5に係る端末装置(180)は、音声入力部(182)と、音声出力部(183)と、制御部とを備えた端末装置であって、上記制御部は、上記音声入力部の入力を参照してユーザの発話に係る入力発話情報を取得し、上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を参照して上記音声出力部に音声を出力させるように構成されており、上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する。
上記の構成によれば、ユーザとの対話を行うための第1の応答を選択できなかった場合に、ユーザの属性応じて、ユーザに再度の発話を促すための第2の応答を選択する。これにより、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを速やかに出力することができる。
本発明の態様6に係る情報処理システム(300)は、通信部(115)と制御部(320)とを備えた情報処理装置(第1のサーバ310)と、音声入力部(182)と音声出力部(183)と端末通信部(181)と端末制御部とを備えた端末装置(180)と、を含む情報処理システム(300)であって、上記端末制御部(185)は、上記音声入力部(182)の入力を参照してユーザの発話に係る入力発話情報を取得し、上記入力発話情報を、上記端末通信部(181)を介して送信し、上記制御部(320)は、上記入力発話情報を、上記通信部(151)を介して取得し、上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を、上記通信部(151)を介して送信し、上記端末制御部(185)は、上記出力発話情報を、上記端末通信部(181)を介して取得し、取得した上記出力発話情報を参照して、上記音声出力部(183)に音声を出力させるように構成されており、上記制御部(320)は、上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する。
上記の構成によれば、ユーザとの対話を行うための第1の応答を選択できなかった場合に、属性判定処理の判定結果に応じて、ユーザに再度の発話を促すための第2の応答を選択するため、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを出力することができる。
本発明の各態様に係る第1のサーバ110,210,310、第2のサーバ150、または端末装置180は、コンピュータによって実現してもよく、この場合には、コンピュータを上記第1のサーバ110,210,310、第2のサーバ150、または端末装置180が備える各部(ソフトウェア要素)として動作させることにより上記第1のサーバ110,210,310、第2のサーバ150、または端末装置180をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 サーバ第
100、200、300 情報処理システム
110、210、310 第1のサーバ(情報処理装置)
150 第2のサーバ
120、220、320 制御部
121 属性判定部
122 第1言語応答選択部
123 第2言語応答選択部
124 第3言語応答選択部
164 TTS
180 端末装置
182 音声入力部
183 音声出力部
222、323 応答選択部
161 第1言語ASR
162 第2言語ASR
163 第3言語ASR

Claims (8)

  1. 通信部と、制御部とを備えた情報処理装置であって、
    上記制御部は、
    ユーザの発話に係る入力発話情報を、上記通信部を介して取得し、
    上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、
    選択した上記応答に係る出力発話情報を、上記通信部を介して提示する
    ように構成されており、
    上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する
    ことを特徴とする情報処理装置。
  2. 上記属性は、
    上記ユーザの使用言語及び出身地の少なくとも何れかである
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 上記属性は、
    上記ユーザの年齢及び性別の少なくとも何れかである
    ことを特徴とする請求項1に記載の情報処理装置。
  4. ユーザの発話に係る入力発話情報を取得する発話情報取得部と、
    上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択する応答選択部と、
    選択した上記応答に係る出力発話情報を提示する発話情報提示部とを備え、
    上記応答選択部は、上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する
    ことを特徴とする情報処理装置。
  5. 音声入力部と、音声出力部と、制御部とを備えた端末装置であって、
    上記制御部は、
    上記音声入力部の入力を参照してユーザの発話に係る入力発話情報を取得し、
    上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、
    選択した上記応答に係る出力発話情報を参照して上記音声出力部に音声を出力させる
    ように構成されており、
    上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択する
    ことを特徴とする端末装置。
  6. 通信部と制御部とを備えた情報処理装置と、
    音声入力部と音声出力部と端末通信部と端末制御部とを備えた端末装置と、
    を含む情報処理システムであって、
    上記端末制御部は、
    上記音声入力部の入力を参照してユーザの発話に係る入力発話情報を取得し、
    上記入力発話情報を、上記端末通信部を介して送信し、
    上記制御部は、
    上記入力発話情報を、上記通信部を介して取得し、
    上記ユーザとの対話を行うための第1の応答か、上記ユーザに再度の発話を促すための第2の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、
    選択した上記応答に係る出力発話情報を、上記通信部を介して送信し、
    上記端末制御部は、
    上記出力発話情報を、上記端末通信部を介して取得し、
    取得した上記出力発話情報を参照して、上記音声出力部に音声を出力させる
    ように構成されており、
    上記制御部は、
    上記ユーザとの上記対話を開始する前に上記第2の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第2の応答の内容を選択
    することを特徴とする情報処理システム。
  7. ユーザの発話、及び当該ユーザとの会話のシナリオに応じて第1の応答群に含まれる応答内容を選択する応答選択ステップと、
    上記ユーザとの会話のシナリオに依らずに、上記ユーザの属性を判定する属性判定ステップと、
    上記応答選択ステップにおいて応答内容を選択できなかった場合に、上記属性判定ステップの判定結果に応じて、上記第1の応答群とは異なる聞き直し応答群に含まれる応答内容を選択する聞き直し応答選択ステップと、を含む
    ことを特徴とする情報処理方法。
  8. 請求項1に記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、上記制御部としてコンピュータを機能させるための情報処理プログラム。
JP2017220103A 2017-11-15 2017-11-15 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム Pending JP2019090942A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017220103A JP2019090942A (ja) 2017-11-15 2017-11-15 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
US16/188,915 US20190147851A1 (en) 2017-11-15 2018-11-13 Information processing apparatus, information processing system, information processing method, and storage medium which stores information processing program therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017220103A JP2019090942A (ja) 2017-11-15 2017-11-15 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2019090942A true JP2019090942A (ja) 2019-06-13

Family

ID=66432252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017220103A Pending JP2019090942A (ja) 2017-11-15 2017-11-15 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム

Country Status (2)

Country Link
US (1) US20190147851A1 (ja)
JP (1) JP2019090942A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056335A (ja) * 2019-09-30 2021-04-08 株式会社なごみテクノロジー 評価システム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11404057B2 (en) * 2018-02-23 2022-08-02 Accenture Global Solutions Limited Adaptive interactive voice response system
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11100926B2 (en) * 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11410641B2 (en) * 2018-11-28 2022-08-09 Google Llc Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance
TW202027062A (zh) * 2018-12-28 2020-07-16 塞席爾商元鼎音訊股份有限公司 聲音播放系統及其調整輸出聲音之方法
EP4002087A4 (en) * 2019-07-19 2023-04-12 LG Electronics Inc. DISPLAY DEVICE AND ARTIFICIAL INTELLIGENCE SERVER CAPABLE OF CONTROLLING A HOME APPLIANCE VIA A USER'S VOICE

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922670B2 (en) * 2000-10-24 2005-07-26 Sanyo Electric Co., Ltd. User support apparatus and system using agents
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
US20170092278A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056335A (ja) * 2019-09-30 2021-04-08 株式会社なごみテクノロジー 評価システム

Also Published As

Publication number Publication date
US20190147851A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
JP2019090942A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11450313B2 (en) Determining phonetic relationships
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
US10163436B1 (en) Training a speech processing system using spoken utterances
JP5405672B2 (ja) 外国語学習装置及び対話システム
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
JP5195414B2 (ja) 応答生成装置及びプログラム
JP2014191030A (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP5189858B2 (ja) 音声認識装置
CN112513984A (zh) 电子设备及其控制方法
JP6715943B2 (ja) 対話装置、対話装置の制御方法、および制御プログラム
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
JP2010197644A (ja) 音声認識システム
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CN114446304A (zh) 语音交互方法、数据处理方法、装置和电子设备
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP7361988B2 (ja) 音声対話システム、音声対話方法及び音声対話管理装置
JP2000242295A (ja) 音声認識装置および音声対話装置
JP2020085942A (ja) 情報処理装置、情報処理方法、およびプログラム
CN113870829A (zh) 基于家庭角色的声学模型播报的方法、***、设备及存储介质