JP2013254395A - 処理装置、処理システム、出力方法およびプログラム - Google Patents

処理装置、処理システム、出力方法およびプログラム Download PDF

Info

Publication number
JP2013254395A
JP2013254395A JP2012130168A JP2012130168A JP2013254395A JP 2013254395 A JP2013254395 A JP 2013254395A JP 2012130168 A JP2012130168 A JP 2012130168A JP 2012130168 A JP2012130168 A JP 2012130168A JP 2013254395 A JP2013254395 A JP 2013254395A
Authority
JP
Japan
Prior art keywords
output
unit
search result
situation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012130168A
Other languages
English (en)
Inventor
Haruomi Azuma
治臣 東
Hideki Ohashi
英樹 大橋
Takahiro Hiramatsu
嵩大 平松
Yusuke Tsukuda
友介 佃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2012130168A priority Critical patent/JP2013254395A/ja
Priority to US13/911,153 priority patent/US20130332166A1/en
Publication of JP2013254395A publication Critical patent/JP2013254395A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ユーザの状況に適した提供方法で、ユーザに情報を提供することのできる処理装置を提供する。
【解決手段】ユーザの音声を認識する音声認識部21と、ユーザの現在状況を認識する状況認識部22と、音声認識部21で認識された音声に基づいて検索された検索結果を取得する検索結果取得部24と、状況認識部により認識された現在状況に基づいて、検索結果を出力する方法を決定する出力方法決定部と、決定された方法で、検索結果を出力部に出力させる出力制御部26とを備える。
【選択図】図1

Description

本発明は、処理装置、処理システム、出力方法およびプログラムに関する。
従来、人間と対話を行う装置が知られている。例えば、特許文献1には、対話の状況に応じて、コンピュータであるエージェントによる発話の内容やタイミングを決定する装置が開示されている。
しかしながら、従来の対話装置においては、対話の状況は考慮されていても、ユーザや、エージェントの地理的な状況や、場の雰囲気など外界環境が考慮されていない。このため、例えば電車内や映画館の中など、音声出力の適さない場所で、音声が出力されてしまうといった不都合が生じていた。
本発明は、上記に鑑みてなされたものであって、ユーザの状況に適した提供方法で、ユーザに情報を提供することのできる処理装置、処理システム、出力方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、処理装置であって、ユーザの音声を認識する音声認識部と、ユーザの現在の状況を認識する状況認識部と、前記音声認識部で認識された音声基づいて検索された検索結果を取得する検索結果取得部と、前記状況認識部により認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定部と、前記出力方法決定部により決定された前記方法で、前記検索結果取得部により出力された前記検索結果を出力部に出力させる出力制御部とを備えることを特徴とする。
また、本発明は、処理システムであって、ユーザの音声を認識する音声認識部と、ユーザの現在の状況を認識する状況認識部と、前記音声認識部で認識された音声に基づいて検索された検索結果を取得する検索結果取得部と、前記状況認識部により認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定部と、前記出力方法決定部により決定された前記方法で、前記検索結果取得部により取得された前記検索結果を出力部に出力させる出力制御部とを備えることを特徴とする。
また、本発明は、出力方法であって、ユーザの音声を認識する音声認識ステップと、ユーザの現在の状況を認識する状況認識ステップと、前記音声認識ステップにおいて認識された音声に基づいて検索された検索結果を取得する検索結果取得ステップと、前記状況認識ステップにおいて認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定ステップと、前記出力方法決定ステップにおいて決定された前記方法で、前記検索結果取得ステップにおいて取得された前記検索結果を出力部に出力させる出力ステップとを含むことを特徴とする。
また、本発明は、プログラムであって、ユーザの音声を認識する音声認識ステップと、ユーザの現在の状況を認識する状況認識ステップと、前記音声認識ステップにおいて認識された音声に基づいて検索された検索結果を取得する検索結果取得ステップと、前記状況認識ステップにおいて認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定ステップと、前記出力方法決定ステップにおいて決定された前記方法で、前記検索結果取得ステップにおいて取得された前記検索結果を出力部に出力させる出力ステップとをコンピュータに実行させるためのプログラムである。
本発明によれば、ユーザの状況に適した提供方法でユーザに情報を提供することができるという効果を奏する。
図1は、処理システムの構成の一例を示すブロック図である。 図2は、提供方法決定テーブルのデータ構成を模式的に示す図である。 図3は、処理システムで実行される処理の一例を示すフローチャートである。
以下に添付図面を参照して、処理装置、処理システム、出力方法およびプログラムの実施の形態を詳細に説明する。
図1は、本実施形態の処理システム1の構成の一例を示すブロック図である。図1に示すように、処理システム1は、処理装置の一例としてのネットワークエージェント(以下、「NA」と称する)10と、検索サーバ101とを備えている。NA10と検索サーバ101は、インターネット107を介して接続されている。
検索サーバ101は、Web上で公開されている情報を検索するものであり、例えば、Web上で検索エンジン機能を提供するものなどであればよい。具体的には、検索サーバ101は、NA10から検索クエリを受信し、受信した検索クエリに従ってWeb上で公開されている情報を検索し、検索結果をNA10に送信する。ここで、検索サーバ101が検索する情報は、Webの動的ページ上で公開されている動的情報であっても、Webの静的ページ上で公開されている静的情報であってもよい。なお、図1に示す例では、検索サーバを1台例示しているが、これに限定されるものではなく、何台であってもよい。
NA10は、Web上で公開されている情報や機能にアクセスする端末である。本実施形態では、NA10は、スマートフォンやタブレットなど携帯型の端末を想定しているが、これに限定されるものではなく、インターネットにアクセス可能な装置であればよい。
本実施形態では、ユーザU1がNA10を所有しており、ユーザU1がユーザU2との対話にNA10を使用する場合を想定してNA10(処理システム1)について説明するが、ユーザが単独でNA10を使用することもできるし、3人以上のユーザが共用してNA10を使用することもできる。
処理システム1は、例えばユーザU1とユーザU2の会話において、検索サーバ101を含むWebクラウドを用いて会話をサポートするシステムである。例えば、ユーザU1とユーザU2が「クリスマスにどこに行こうか?」という内容の会話をしていた場合に、NA10はWebクラウドから「クリスマスにお勧めの場所」の検索結果を受け取り、これをユーザに提示することができる。
NA10は、図1に示すように、音声入力部11と、GPS(Global Positioning System)受信部13と、通信部15と、撮像部16と、記憶部17と、出力部19と、制御部20とを備えている。
音声入力部11は、ユーザが発する音声等をNA10に入力するものであり、マイクロフォンなどの集音器により実現できる。GPS受信部13は、ユーザの位置を示す位置情報を受信する。GPS受信部13は、具体的には、GPS衛星からの電波を受信するものであり、GPS受信機などにより実現できる。
通信部15は、インターネット107を介して検索サーバ101などの外部機器と通信するものであり、NIC(Network Interface Card)などの通信装置により実現できる。撮像部16は、当該NA10のユーザや、ユーザの周囲環境を撮像するものであり、デジタルカメラ、ステレオカメラなどの撮像装置により実現できる。
記憶部17は、NA10で実行される各種プログラムやNA10で行われる各種処理に使用されるデータなどを記憶する。記憶部17は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、光ディスク、ROM(Read Only Memory)、及びRAM(Random Access Memory)などの磁気的、光学的、又は電気的に記憶可能な記憶装置により実現できる。
出力部19は、制御部20の処理結果を出力するものであり、液晶ディスプレイやタッチパネル式ディスプレイなどの表示出力用の表示装置、スピーカなどの音声出力用の音声装置などで実現してもよいし、これらの装置を併用して実現してもよい。
制御部20は、NA10の各部を制御するものであり、音声認識部21と、状況認識部22と、検索要求部23と、検索結果取得部24と、提供方法決定部25と、出力制御部26とを含む。音声認識部21、状況認識部22、検索要求部23、検索結果取得部24、提供方法決定部25および出力制御部26は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェア及びハードウェアを併用して実現してもよい。
音声認識部21は、入力された音声に対し音声認識処理を施し、音声認識結果を得る。具体的には、音声認識部21は、音声入力部11から入力された音声の特徴量を抽出し、記憶部17に記憶されている音声認識用の辞書データなどを用いて、抽出した特徴量をテキスト(文字列)に変換する。音声認識手法の詳細については、例えば、特開2004−45591号公報や特開2008−281901号公報などに開示されている公知の手法を用いることができるため、ここでは、詳細な説明は省略する。
状況認識部22は、例えばGPS受信部13などの検出センサによる検出結果、外部から入力される情報および記憶部17に記憶されている情報に基づいて、ユーザの現在の状況を認識する。ここで、ユーザの現在の状況としては、外界状況、行動状況および提供可能データ状況がある。
外界状況は、現在のユーザ位置、天気、気温、時刻など、ユーザの存在する環境に関する状況である。状況認識部22は、GPS受信部13が受信するGPS衛星からの電波を用いて、NA10のユーザの現在位置を認識する。また、状況認識部22は、認識したユーザの現在位置を基に、後述する検索要求部23に天気、気温、又は時刻のWeb検索を要求し、後述する検索結果取得部24により取得されたWeb検索の検索結果からユーザの現在位置の天気、気温、又は時刻を認識する。
行動状況は、「歩行中」、「電車に乗車中」、「会話中」、「手を伸ばしみかんを掴んだ」、「相槌を打った」、「頷いた」など、ユーザの行動に起因した状況である。状況認識部22は、GPS受信部13が受信する位置情報の時間変化に基づいて、「歩行中」または「電車に乗車中」であることを認識する。
状況認識部22は、GPS受信部13が受信する位置情報の時間変化から得られる移動速度に基づいて、電車での移動と、歩行とを判別する。さらに、状況認識部22は、位置情報と、記憶部17に記憶されている地図情報とを照合することにより、移動経路が道路上であるか線路上であるかを判別してもよい。これにより、電車での移動と徒歩での移動とを区別することができる。状況認識部22はさらに、撮像部18により得られる周辺画像から電車内の映像か否かにより両者を判別してもよい。
状況認識部22は、音声入力部11に入力された音声に基づいて、複数の人物の声が入力された場合に、「会話中」であることを認識する。状況認識部22はさらに、撮像部16により複数の人物の撮像画像が得られたか否かを考慮して、「会話中」か否かを判断してもよい。
状況認識部22は、また撮像部16により撮像されたユーザの画像に基づいて、「手を伸ばしみかんを掴んだ」ことを認識する。具体的には、音声認識部21は、ユーザが撮像された動画像または時系列に沿って得られた静止画像から、ユーザの手がユーザの胴***置から遠ざかる方向への移動を検知し、さらに手の移動先にみかんが検知された場合に、「手を伸ばしみかんを掴んだ」と認識する。以上のように、音声入力部11、GPS受信部13および撮像部16は、外界の状況を検出する検出センサとして機能する。
提供可能データ状況は、ユーザに提供することのできるデータのデータ形式の状況である。なお、本実施の形態においては、ユーザに提供するデータ形式として、テキストデータ、画像データおよび音声データを想定するものとする。なおユーザにデータを提供する装置は、NA10であってもよく、またNA10以外の機器であってもよい。
例えばユーザが、スピーカを備える機器やスピーカを備えるNA10を所持している場合には、スピーカを用いて音声データを出力することにより、ユーザにデータを提供することができるが、ユーザが、表示画面を備える機器や表示画面を備えるNA10を所持していない場合には、テキストデータおよび画像データとしてのデータをユーザに提供することはできない。
なお、提供可能データ状況については、予め記憶部17に記憶されているものとする。状況認識部22は、記憶部17を参照し、提供可能データ状況を認識する。例えば、ユーザがスマートフォンを所持している場合には、音声データ、画像データおよびテキストデータの出力が可能であるという提供可能データ状況が認識される。また、ユーザがスピーカを備える機器を所持していない場合には、音声データの出力不可という提供可能データ状況が認識される。また、ユーザが供える機器が供える表示画面のサイズが小さい場合には、画像データの出力不可であり、テキストデータの出力のみ可能という提供可能データ状況が認識される。
さらに、例えば公共の機器や、共有機器など、ユーザが所持する機器やNA10以外の機器が備える出力機能を用いて、ユーザにデータを提供することができる場合には、状況認識部22は、利用可能な出力機能により提供可能なデータ形式についても、提供可能データ状況として状況認識結果を得る。具体的には、状況認識部22は、例えば、インターネット107を介して外部機器から、ユーザの個人情報や、ユーザ位置周辺の地図情報上に記載された機器の出力機能の情報などを受信し、受信した情報に基づいて、NA10以外の機器の出力機能についての状況認識結果を得る。すなわち、状況認識部22は、外部機器から入力された情報に基づいて、提供可能データ状況を認識する。
検索要求部23は、音声認識部21により得られた音声認識結果と、状況認識部22により得られた状況認識結果とを取得し、これらに基づいて、情報の検索を要求する。検索要求部23は、例えば、「ユーザがみかんを掴んだ」という状況認識結果と、「賞味期限を知りたい」という音声認識結果を取得した場合には、「みかんの賞味期限」を検索クエリとし、検索サーバ101にウェブ上での検索を要求する。
検索結果取得部24は、通信部15を介して検索サーバ101から検索クエリに対する検索結果を取得する。検索結果が地図情報である場合には、検索結果取得部24は、住所を示すテキストデータ、音声案内用の音声データ、地図を示す画像データなどを取得する。
提供方法決定部25は、状況認識結果に基づいて、検索結果のユーザへの提供方法、すなわち検索結果の出力方法を決定する。提供方法決定部25は、さらにインターネット17を介して必要な情報を取得し、取得した情報を考慮して、提供方法を決定してもよい。
提供方法決定部25は具体的には、記憶部17に記憶されている提供方法決定テーブルを参照し、状況認識結果に基づいて、ユーザへの提供方法を決定する。提供方法決定部25は、出力方法決定部として機能する。
図2は、提供方法決定テーブル30のデータ構成を模式的に示す図である。提供方法決定テーブル30は、状況認識結果と、可能な提供方法とを対応付けて記憶している。なお、提供方法決定テーブル30は、予め設計者等により記憶部17等に設定されているものとする。
状況認識結果1に示すように、状況認識結果に制約がない場合には、テキスト、画像および音声のいずれのデータもユーザへの提供が可能である。例えば、ユーザがスマートフォンなど、テキスト、画像および音声のいずれのデータも出力可能な機器を所持しており、ユーザが公園に居る場合などが状況認識結果1に該当する。
状況認識結果2に示すように、ユーザが電車に乗車中である場合には、テキストおよび画像のデータのみユーザへの提供が可能である。電車内では、マナーモードが推奨されており、音声データの出力は適切でないことに対応するものである。
状況認識結果3に示すように、ユーザが歩行中である場合であって、ユーザがテキスト、画像および音声のいずれのデータも出力可能な機器を所持している場合には、画像および音声のデータのみユーザへの提供が可能である。画像や音声でわかり易い内容のデータをユーザに提供することにより、ユーザは立ち止まることなく、内容を把握することができる。
状況認識結果4に示すように、ユーザが歩行中である場合であって、出力機能を有する機器を所持せず、移動経路上にスピーカを搭載した電光掲示板(表示画面)が存在する場合には、テキストおよび音声のデータのみユーザへの提供が可能である。この場合には、NA10は、インターネット107を介して、電光掲示板に検索結果を送信し、電光掲示版に、テキストおよび音声データとして検索結果を出力させることにより、ユーザに検索結果を提供する。
状況認識結果5に示すように、提供可能データがテキストデータのみである場合には、テキストデータのみユーザへの提供が可能である。例えば、ユーザが所持する機器の表示画面サイズが小さい場合に状況認識結果5に該当する。
状況認識結果6に示すように、ユーザが急いで歩いている場合には、画像データのみユーザへの提供が可能である。このように、ユーザが急いでいる場合には、容易にかつ迅速にユーザに内容を伝えることができるデータ形式のみ提供可能とする。
なお、急いでいることの認識については、状況認識部22が、例えば記憶部17または通信部15を介してアクセス可能なWebクラウド環境のいずれかの装置にユーザの個人情報として登録してあるスケジュール等の情報に基づいて、「何時にどこに行かなくてはならない」ということを理解する。状況認識部22はさらに、現在のユーザ位置、現在時刻、目的地、目的地到着予定時刻に基づいて、急いでいるか否かを認識する。
状況認識結果7に示すように、提供可能データが音声データのみである場合には、音声データのみユーザへの提供が可能である。状況認識結果8に示すように、ユーザが提供対象としているデータと異なる新たなデータを要求している場合には、提供対象のデータの提供を行わない。提供対象のデータについては、すでに興味がないと考えられるためである。
なお、図2に示す提供方法決定テーブル30のデータは、提供方法テーブル30のデータの一部であり、提供方法決定テーブル30は、より詳細な状況認識結果と提供方法の対応を記憶しているものとする。
なお、他の例としては、状況認識部22は、提供方法決定テーブルにかえて、提供方法を決定するためのアルゴリズムにしたがって、状況認識結果から提供方法を決定してもよい。この場合には、記憶部17は、提供方法決定テーブルに替えて、アルゴリズムを記憶するものとする。なお、提供方法決定テーブルまたはアルゴリズムなど、状況認識部22が参照する情報は、通信部15を介してアクセス可能なWebクラウド環境のいずれかの装置に記憶されていればよく、その記憶場所は、NA10に限定されるものではない。
図1に戻り、出力制御部26は、提供方法決定部25により決定された出力方法に応じて、指定された出力先に検索結果を出力させる。出力制御部26は、例えば、出力部19に音声出力を行わせる場合、検出結果取得部24により生成された応答文(検索結果)を音声合成して音声に変換し、出力部19に音声出力させる。出力制御部26は、また例えば、出力部19としての表示画面に画像を表示する場合には、応答文(検索結果)を描画データに変換し、出力部19に画面出力させる。出力制御部26はまた、外部機器を用いた出力方法が決定された場合には、通信部15を介して指定された外部機器に応答文(検索結果)を送信する。この場合には、指定された外部機器において、検索結果が指定された出力形式で出力される。
出力制御部26は、さらに状況認識結果に基づいて、出力タイミングを制御する。出力制御部26は、例えばユーザの発話中であるという状況認識結果が得られた場合には、発話の終了後を出力タイミングと決定し、発話の終了後に検索結果の応答文を出力する。出力制御部26はまた、提供方法決定テーブル30の状況認識結果8のように、提供可能な出力形式が存在しない場合には、出力タイミングではないと判断し、出力を行わない。なお、状況認識結果から出力タイミングを決定するためのアルゴリズムまたは状況認識結果と出力タイミングの制御方法とを対応付けたテーブルが予め記憶部17に記憶されており、出力制御部26は、アルゴリズムまたはテーブルを用いることにより、出力タイミングを決定するものとする。
なお、NA10は、上述した各部の全てを必須の構成とする必要はなく、その一部を省略した構成としてもよい。
次に、本実施形態の処理システムの動作について説明する。図3は、本実施形態の処理システム1で実行される処理の一例を示すフローチャートである。NA10においては、常にユーザの行動を認識する(ステップS101)。具体的には、音声認識部21は、音声入力部11に音声が入力される度に、音声認識処理を行い、また、状況認識部22は常にユーザの行動状況の認識を行う。次に、検索要求部23は、音声認識部21および状況認識部22により得られた行動認識結果から検索クエリを生成し、検索サーバ101に検索を要求する(ステップS102)。
続いて、検索サーバ101は、NA10から検索クエリを受信し、受信した検索クエリに従ってWeb上で公開されている情報を検索し、検索結果をNA10に送信する(ステップS103)。
続いて、検索結果取得部24は、検索サーバ101から情報の検索結果を取得する(ステップS104)。次に、状況認識部22は、所定の行動認識結果が得られた場合に、状況認識の必要があると判断し(ステップS105でYes)、検出センサによる検出結果と、外部から入力された情報と、記憶部17に記憶されている情報とに基づいて、外界状況、および提供可能データ状況に対する状況認識結果を得る(ステップS106)。
ここで、状況認識の必要があると判断される行動認識結果としては、「発言した」、「立ち上がった」などが挙げられる。状況認識部22が状況認識を開始する条件は、記憶部17に記憶されており、状況認識部22は、記憶部17に記憶されている条件に合致する行動認識結果が得られた場合に状況認識を行う。
一方で、状況認識の必要がないと判断される行動認識結果としては、「相槌を打った」、「頷いた」などが挙げられる。これらの行動が観察される状況においては、情報提供の必要がない可能性が高いためである。
続いて、提供方法決定部25は、提供方法決定テーブル30を参照し、状況認識結果に基づいて、ユーザへの検索結果の提供方法を決定する(ステップS107)。次に、出力制御部26は、状況認識結果に基づいて、出力タイミングであるか否かを判定する。そして、出力タイミングであると判定された場合に(ステップS108でYes)、検索結果を提供方法決定部25により決定された提供方法で出力する(ステップS109)。
ここで、検索結果取得部24が取得した検索結果のデータが、提供方法決定部に25により決定された提供方法のデータ形式でない場合には、出力制御部26は、検索結果のデータを提供方法決定部により決定された提供方法のデータ形式に変換する。例えば、検索結果として画像データや音声データを取得した場合において、決定された提供方法(データ形式)がテキストデータである場合は、出力制御部26は、検索結果のデータをテキストデータに変換する。
ステップS108において、出力タイミングでないと判定された場合には(ステップS108でNo)、出力タイミングまで待機する。出力タイミングか否かの判定においては、出力制御部26は、例えば、ユーザが音声データのみ出力可能な機器のみを所持し、かつ電車に乗っている状況においては、出力タイミングでないと判定する。さらに、その後、ユーザが電車から降りたことを示す状況認識結果が得られた場合には、出力制御部26は、出力タイミングであると判定し、提供が保留されていた検索結果がユーザに提供される。
なお、ステップS108において、一定期間内に検索結果の出力タイミングであると判定されなかった場合、検索結果を出力部19に出力させずに、処理を終了する。これにより、NA10による応答が望まれていない場合には、応答を行わず、対話の妨げになることを回避することが可能となる。
以上のように、本実施の形態にかかる処理システム1においては、ユーザの状況に適した出力形式のデータを出力することができる。すなわち、ユーザの状況に適した形式でデータを提供することができる。
例えば、ユーザU1とユーザU2が電車の中で話をしている場合に、突然、NA10から音声で情報を提供された場合には、周囲の人にとって迷惑になってしまう可能性がある。これに対し、本実施の形態にかかる処理システム1によれば、電車の中では、音声出力を禁止し、画像データまたはテキストデータを表示画面に表示することができる。なお、この場合に、スマートフォンの振動による通知を利用可能な場合には、振動による通知とともに、画像データまたはテキストデータを表示画面に表示することとしてもよい。
また例えば、ユーザの歩行中において、ユーザが所持する携帯端末にテキストメールで地図情報が提供された場合には、視認性が低く、ユーザは容易に内容を理解することができない、また携帯端末を取り出す必要があるなどの利便性が低い。これに対し、本実施の形態にかかる処理システム1においては、歩行経路に広域地図を表示可能なディスプレイが設置されている場合には、このディスプレイに広域地図を表示することにより、ユーザにデータを提供することができるので、ユーザは、立ち止まることなく希望する広域地図を閲覧することができる。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
そうした変更例としては、NA10の1または2以上のユーザに関する、情報の提供方法に関する設定情報や履歴情報やユーザによるフィードバック情報などを、各ユーザの個人情報として、記憶部17に記憶してもよい。この場合には、提供方法決定部25は、さらに個人情報を参照して、提供方法を決定する。これにより、ユーザに適した提供方法を決定することができる。さらに、NA10が決定した提供方法がユーザにとって不適切であった場合には、その旨をユーザがフィードバックすることで提供方法の改善を行ってもよい。
NA10はさらに、状況認識結果と、ユーザが希望する提供方法とを個人情報として蓄積してもよい。そして、提供方法決定部25は、次回以降の提供方法決定時に提供個人情報に基づいて、提供方法に重み付けを行った上で提供方法を決定してもよい。
本実施の形態のNA10は、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態のNA10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態のNA10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態のNA10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。また、本実施形態のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態のNA10で実行されるプログラムは、上述した各部(行動認識部、状況認識部、検索要求部、検索結果取得部、提供方法決定部、出力制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
1 処理システム
10 NA
11 音声入力部
13 GPS受信部
15 通信部
16 撮像部
17 記憶部
19 出力部
20 制御部
21 音声認識部
22 状況認識部
23 検索要求部
24 検索結果取得部
25 提供方法決定部
26 出力制御部
特開2010−186237号公報

Claims (8)

  1. ユーザの音声を認識する音声認識部と、
    ユーザの現在の状況を認識する状況認識部と、
    前記音声認識部で認識された音声基づいて検索された検索結果を取得する検索結果取得部と、
    前記状況認識部により認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定部と、
    前記出力方法決定部により決定された前記方法で、前記検索結果取得部により出力された前記検索結果を出力部に出力させる出力制御部と
    を備えることを特徴とする処理装置。
  2. 前記現在の状況は、ユーザの行動状況、外界状況およびユーザに提供可能なデータのデータ形式の状況うち少なくとも一つの状況を含むことを特徴とする請求項1に記載の処理装置。
  3. 前記状況認識部は、前記検索結果取得部が前記検索結果を取得した場合に、前記現在の状況を認識することを特徴とする請求項1または2に記載の処理装置。
  4. 前記状況認識部は、前記出力方法決定部が前記現在の状況において出力可能な方法がないと判断した場合に、一定時間経過後に再び前記現在の状況を認識し、
    前記出力方法決定部は、前記状況認識部により再び認識された前記現在の状況に基づいて、前記方法を決定することを特徴とする請求項1から3のいずれか一項に記載の処理装置。
  5. 前記出力方法決定部は、前記検索結果を画像データ、テキストデータまたは音声データのうち少なくとも1つの出力形式で出力することを、前記方法として決定することを特徴とする請求項1から4のいずれか一項に記載の処理装置。
  6. ユーザの音声を認識する音声認識部と、
    ユーザの現在の状況を認識する状況認識部と、
    前記音声認識部で認識された音声に基づいて検索された検索結果を取得する検索結果取得部と、
    前記状況認識部により認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定部と、
    前記出力方法決定部により決定された前記方法で、前記検索結果取得部により取得された前記検索結果を出力部に出力させる出力制御部と
    を備えることを特徴とする処理システム。
  7. ユーザの音声を認識する音声認識ステップと、
    ユーザの現在の状況を認識する状況認識ステップと、
    前記音声認識ステップにおいて認識された音声に基づいて検索された検索結果を取得する検索結果取得ステップと、
    前記状況認識ステップにおいて認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定ステップと、
    前記出力方法決定ステップにおいて決定された前記方法で、前記検索結果取得ステップにおいて取得された前記検索結果を出力部に出力させる出力ステップと
    を含むことを特徴とする出力方法。
  8. ユーザの音声を認識する音声認識ステップと、
    ユーザの現在の状況を認識する状況認識ステップと、
    前記音声認識ステップにおいて認識された音声に基づいて検索された検索結果を取得する検索結果取得ステップと、
    前記状況認識ステップにおいて認識された前記現在の状況に基づいて、前記検索結果を出力する方法を決定する出力方法決定ステップと、
    前記出力方法決定ステップにおいて決定された前記方法で、前記検索結果取得ステップにおいて取得された前記検索結果を出力部に出力させる出力ステップと
    をコンピュータに実行させるためのプログラム。
JP2012130168A 2012-06-07 2012-06-07 処理装置、処理システム、出力方法およびプログラム Pending JP2013254395A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012130168A JP2013254395A (ja) 2012-06-07 2012-06-07 処理装置、処理システム、出力方法およびプログラム
US13/911,153 US20130332166A1 (en) 2012-06-07 2013-06-06 Processing apparatus, processing system, and output method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012130168A JP2013254395A (ja) 2012-06-07 2012-06-07 処理装置、処理システム、出力方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2013254395A true JP2013254395A (ja) 2013-12-19

Family

ID=49715985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012130168A Pending JP2013254395A (ja) 2012-06-07 2012-06-07 処理装置、処理システム、出力方法およびプログラム

Country Status (2)

Country Link
US (1) US20130332166A1 (ja)
JP (1) JP2013254395A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016002298A1 (ja) * 2014-06-30 2016-01-07 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2017175442A1 (ja) * 2016-04-08 2017-10-12 ソニー株式会社 情報処理装置、および情報処理方法
JP2019091429A (ja) * 2017-11-16 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報処理方法および装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103140862B (zh) * 2010-09-30 2016-11-02 法国电信公司 用户界面***及其操作方法
WO2016157658A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003032388A (ja) * 2001-07-12 2003-01-31 Denso Corp 通信端末装置及び処理システム
JP2004177990A (ja) * 2002-11-22 2004-06-24 Ntt Docomo Inc 情報提示システム、情報提示方法、プログラム及び記録媒体
JP2006040266A (ja) * 2004-06-24 2006-02-09 Nec Corp 情報提供装置、情報提供方法および情報提供用プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6903767B2 (en) * 2001-04-05 2005-06-07 Hewlett-Packard Development Company, L.P. Method and apparatus for initiating data capture in a digital camera by text recognition
EP1471502A1 (en) * 2003-04-25 2004-10-27 Sony International (Europe) GmbH Method for correcting a text produced by speech recognition
JP2005326975A (ja) * 2004-05-12 2005-11-24 Fujitsu Ltd 情報検索装置、情報検索プログラム及び情報検索方法
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003032388A (ja) * 2001-07-12 2003-01-31 Denso Corp 通信端末装置及び処理システム
JP2004177990A (ja) * 2002-11-22 2004-06-24 Ntt Docomo Inc 情報提示システム、情報提示方法、プログラム及び記録媒体
JP2006040266A (ja) * 2004-06-24 2006-02-09 Nec Corp 情報提供装置、情報提供方法および情報提供用プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016002298A1 (ja) * 2014-06-30 2016-01-07 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JPWO2016002298A1 (ja) * 2014-06-30 2017-04-27 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2019197570A (ja) * 2014-06-30 2019-11-14 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US10552434B2 (en) 2014-06-30 2020-02-04 Sony Corporation Information processing device, control method, and program
WO2017175442A1 (ja) * 2016-04-08 2017-10-12 ソニー株式会社 情報処理装置、および情報処理方法
JP2019091429A (ja) * 2017-11-16 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報処理方法および装置

Also Published As

Publication number Publication date
US20130332166A1 (en) 2013-12-12

Similar Documents

Publication Publication Date Title
JP7101322B2 (ja) デジタルアシスタントのためのボイストリガ
JP6585300B2 (ja) ユーザからの音声フレーズに応答してのコンテキストデータに基づいた電子デバイスによる通知の生成
US9288594B1 (en) Auditory environment recognition
JP2019109503A (ja) プライバシー保護音声対話のための装置及び方法
JP2013254395A (ja) 処理装置、処理システム、出力方法およびプログラム
KR20150126214A (ko) 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
US11948564B2 (en) Information processing device and information processing method
US9791925B2 (en) Information acquisition method, information acquisition system, and non-transitory recording medium for user of motor vehicle
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
WO2017175442A1 (ja) 情報処理装置、および情報処理方法
CN110944056A (zh) 交互方法、移动终端及可读存储介质
US20200402498A1 (en) Information processing apparatus, information processing method, and program
KR20160055059A (ko) 음성 신호 처리 방법 및 장치
JP7274404B2 (ja) 情報提供装置、情報提供方法、およびプログラム
US20140004901A1 (en) Systems and methods for hands-off control of a mobile communication device
JP2014123353A (ja) ヘルプを提供する方法、コンピュータプログラム及びコンピュータ
JP6387287B2 (ja) 不明事項解消処理システム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP2013238986A (ja) 処理装置、処理システム、出力方法及びプログラム
CN113380275B (zh) 语音处理方法、装置、智能设备及存储介质
JP6971205B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
KR101727911B1 (ko) 휴대 단말기 및 그 동작 방법
JP2021047507A (ja) 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム
KR20150066350A (ko) 블랙박스 기능을 가지는 휴대용 단말기
KR101768692B1 (ko) 전자 출력 장치, 방법 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161108