JP2015069103A - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP2015069103A
JP2015069103A JP2013204748A JP2013204748A JP2015069103A JP 2015069103 A JP2015069103 A JP 2015069103A JP 2013204748 A JP2013204748 A JP 2013204748A JP 2013204748 A JP2013204748 A JP 2013204748A JP 2015069103 A JP2015069103 A JP 2015069103A
Authority
JP
Japan
Prior art keywords
information
attribute
text information
voice
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013204748A
Other languages
English (en)
Inventor
玲二 藤川
Reiji Fujikawa
玲二 藤川
雅彦 原田
Masahiko Harada
雅彦 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2013204748A priority Critical patent/JP2015069103A/ja
Publication of JP2015069103A publication Critical patent/JP2015069103A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】これまでに得た情報では条件が不十分であって、検索を実行することができないとき、ユーザに働きかけ検索に必要な情報を自動的に補足する。
【解決手段】入力される音声情報をテキスト情報に変換する手段と、変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、データベースに格納された情報に基づいて、分節されたテキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、対応付けられたサーバから属性に対応する情報を検索する際、分節されたテキスト情報が、検索のための必須項目をすべて満たしているか否かを判断する手段と、必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する手段と、を含む。
【選択図】図7

Description

本発明は、情報処理装置、制御方法、及びプログラムに関する。
近年、文字、音声、図形、映像等のマルチメディアを入力、出力、及び加工処理することで、人間とコンピュータとの対話を様々な形態で行うことが可能となっている。特に、最近になって、メモリ容量やパーソナルコンピュータ(以下、PCともいう。)の処理能力が飛躍的に向上したことで、マルチメディアを取り扱うことができるPCが開発され、種々のアプリケーションが開発されてきている。
一方、従来からの数値データに代わり、文字を含む言語データが一般的になり、白黒のイメージデータはカラー化や図形、アニメーション、三次元グラフィックス、さらには動画が扱えるように拡張されてきている。また、音声やオーディオ信号についても、単なる音声信号レベルの入出力の他に、音声認識や音声合成の機能が研究開発されつつある。しかし、マンマシンインタフェースとして使用するには性能が不安定で、実用化は限定された分野に限られているのが現状である。
このように、上述した文字、テキスト、音声、グラフィックデータ等については、従来の入出力処理(記録、再生)から各種メディアへの展開や生成機能へと発展が続いている。換言すれば、各メディアの表面的な処理からメディアの内容や構造、意味的内容を取り扱い、人間とPCとの間の対話をより自然に快適に行うことを目的として、音声やグラフィックス等のメディアの融合や生成を利用する対話システムの構築が検討されつつある。
ここで、対話システムに用いられる音声検索とは、文字列ではなく、発話する声により話しかけることで検索できる技術やサービスのことを指す。近年では、Apple(登録商標)iOSに搭載されるSiri(登録商標)や、Google(登録商標)音声検索が知られている。また、最近では、音声操作できるカーナビ、一部のメーカーが発売する音声による操作や番組検索が可能なテレビ、話しかけるとそのまま指定した言語に翻訳してくれる携帯電話やスマートフォン等も出てきている。このように近年、音声解析技術を使ったサービスが登場してきている。
ところで、音声検索は、キーボードやタッチパネルで文字列を打つ必要がないので、両手が塞がっている時でも情報にアクセスでき、発声という直感的なアプローチが可能である。そして、検索結果に該当するものをPCによる音声を用いた回答で得ることができれば、対話によりインターネットから欲しい情報を容易に取り出せるようになる、等の理由から、将来性が期待されている。
しかしながら、現状、インターネットを用いた音声検索は、それ程普及が進んでいるとはいえない。音声検索の普及が進まない原因として考えられるのが、検索サービスにおける音声認識の難しさ、その汎用性にある。すなわち、テレビに搭載されている音声認識は、基本的にテレビ番組名や出演者名等、番組と人物に関連する物事や、テレビ操作に関連する物事が認識できれば足りるのである。同様にカーナビであれば、基本的に住所・施設名等、地図情報に関連する物事を認識できれば良いのである。
例えば、カーナビで入力する住所は、東京都○○区△△町等のように定型化されているので、連続的な音声を認識した時に、○○、△△に入る文言を特定できれば良いので、結果的に精度は良くなる。このように、特定用途の機器であれば、認識すべき範囲や文脈はある程度絞り込むことができる、つまり候補を限定することができる。しかしながら、汎用的な検索サービスではそうはいかないのが現状である。
このように、音声認識については、単一単語認識から連続単語認識、連続音声認識へと発展しており、実用化のために応用を限定した方向でも開発が進められている。このような応用場面では、音声対話システムとして、音声の文字面の認識よりも音声の発話内容の理解が重要であり、例えば、キーワードスポッティングをベースに応用分野の知識を利用した音声理解システムも研究されてきている。
他方、音声等のメディアの理解と生成は、単なるデータの入出力とは異なり、メディアの変換の際に発生する情報の欠落やエラーが不可避である。すなわち、音声理解は情報量の多い音声パターンデータから音声の発話の内容や発話者の意図を抽出する処理であり、情報の圧縮を行う過程で音声認識エラーや曖昧性が生じる。したがって、音声対話システムとしては上述した認識エラーや曖昧性等の音声認識の不完全さに対処するため、PC側からユーザに対して適切な質問や確認を行い、対話制御によりスムーズに対話を進行する必要がある。
そして、音声対話システムにおいて、PCにおいて検索を実行するための情報が不足しているとき、PCはユーザに対して検索を実行することができない旨、又は検索条件を入力し直して欲しい旨のアナウンスを通知し、不足情報が得られるまで、検索の実行自体を行わない場合もある。
そして、特許文献1には、ユーザが、VTR等の電子機器を音声で操作するためにエージェントに対して音声を入力し、VTR等の電子機器の状態を音声でエージェントを介してユーザに伝える制御装置において、要素情報の指定に誤りがある、あるいは、指定に誤りはないがVTRの仕様上間違っている入力エラーの場合、エージェントは、「わかりませんでした。何曜日の予約ですか?」とか、「開始と終了の時刻が同じです。時間を入れ直して下さい。」等のように入力文中の誤り項目(エラー項目)を指摘し、再入力を促すようなメッセージを動画表示、及び音声出力、入力待ち状態とする制御装置が記載されている。
特開平04−338817号公報
上述したように、従来の音声認識、音声合成技術を利用した音声対話システムは、それぞれ別個に開発された音声認識、音声合成、画面表示の各技術を単に組み合わせただけのものであり、音声の対話という観点からの十分な考慮がなされていないという問題がある。すなわち、音声認識機能には、認識誤りや曖昧性があり、音声合成機能は人間の発声よりも明りょう度が悪く、イントネーションの制御も不十分であるため、意図や感情の伝達能力が不足しており、自然性に欠けるという根本的な問題がある。
また、音声認識装置の認識率は向上してきているが、そもそも想定していない入力に対しては認識することができず、誤認識となったり、認識できなくなったりする事象が発生する。この誤認識や認識不可状態となった場合の対応として、「戻る」操作がある。これは、誤認識や認識不可状態をリセットして、再度ユーザに対して入力させるというものである。しかし、この方法では、一回目と同じ入力を行ったとしても、誤認識や認識不可状態を回避することはできず、結果的に音声対話ができなくなってしまうという問題がある。
そして、特許文献1に記載された技術では、要素情報の指定に誤りがある、あるいは、要素情報の指定に不足がある場合、入力の誤りを指摘し、再入力を促すと共に入力待ち状態となってしまい、その後の動作を一切停止してしまうという問題がある。
そこで本発明は、上記従来の問題点に鑑みてなされたもので、これまでに得た情報では条件が不十分であって、検索を実行することができないとき、ユーザに働きかけ検索に必要な情報を自動的に補足することが可能な情報処理装置、制御方法、及びプログラムを提供することを目的とする。
上記課題を解決するため、請求項1に記載の本発明における情報処理装置は、入力される音声情報をテキスト情報に変換する手段と、前記変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する手段と、前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する手段と、を含むことを特徴とする。
また、本発明における情報処理装置は、請求項1に記載の情報処理装置において、前記不足項目を補充するための音声情報を獲得すると、前記音声情報をテキスト情報に変換し、前記データベースの中から前記テキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索することを特徴とする。
さらに、本発明における情報処理装置は、請求項1又は2に記載の情報処理装置において、前記必須項目をすべて満たしているとき、前記テキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索することを特徴とする。
また、上記課題を解決するため、請求項4に記載の本発明における情報処理装置の制御方法は、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、入力される音声情報をテキスト情報に変換する工程と、前記変換されたテキスト情報を分節する工程と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する工程と、前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する工程と、を含むことを特徴とする。
そして、上記課題を解決するために、請求項5に記載の本発明におけるプログラムは、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置のコンピュータに、入力される音声情報をテキスト情報に変換する処理と、前記変換されたテキスト情報を分節する処理と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する処理と、前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する処理と、を実現させることを特徴とする。
本発明によれば、これまでに得た情報では条件が不十分であって、検索を実行することができないとき、ユーザに働きかけ検索に必要な情報を自動的に補足することが可能な情報処理装置、制御方法、及びプログラムが得られる。
本発明の実施形態における情報処理装置の構成について説明する概略ブロック図である。 本発明の実施形態における情報処理装置の主要部の構成について説明する概略ブロック図である。 本発明の実施形態における情報処理装置のソフトウェア機能について説明する機能ブロック図である。 本発明の実施形態における情報処理装置の起動時の画面表示(その1)について説明する図である。 本発明の実施形態における情報処理装置の起動時の画面表示(その2)について説明する図である。 本発明の実施形態における情報処理装置の起動時の画面表示(その3)について説明する図である。 本発明の実施形態における情報処理装置の具体的な動作について説明する図である。 本発明の実施形態における情報処理装置の動作について説明するフローチャートである。 本発明の実施形態における情報処理装置のユーザインタフェースが最小化された時の画面表示について説明する図である。
次に、本発明を実施するための形態について図面を参照して詳細に説明する。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。本発明の内容を簡潔に説明すると、入力される音声情報をテキスト情報に変換する手段と、変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、データベースに格納された情報に基づいて、分節されたテキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、対応付けられたサーバから属性に対応する情報を検索する際、分節されたテキスト情報が、検索のための必須項目をすべて満たしているか否かを判断する手段と、必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する手段と、を含むことにより、これまでに得た情報では条件が不十分であって、検索を実行することができないとき、ユーザに働きかけ検索に必要な情報を自動的に補足することができるのである。
まず、図1を用いて本発明の実施形態における情報処理装置の構成について説明する。図1は、本発明の実施形態における情報処理装置の構成について説明する概略ブロック図である。図1を参照すると、本発明の実施形態における情報処理装置100は、電子情報端末、PDA、ノート型PC、タブレット型PC等を具体例とする情報処理装置である。
図1において、本発明の実施形態における情報処理装置(以下、パーソナルコンピュータ(PC)ともいう。)100は、マイク101と、音声認識部102と、ROM(Read Only Memory)103と、RAM(Random Access Memory)104と、スピーカ105、音声合成部106と、CPU(Central Processing Unit)107と、表示部108と、入力部109と、電源部110と、ネットワーク接続部111と、HDD(Hard Disk Drive)112と、から構成される。
マイク101は、ユーザの音声を音声データ(電気信号)に変換するものである。音声認識部102は、マイク101によって音声データに変換されたユーザの音声を認識するものである。ROM103は、PC100全体の動作を制御するプログラムを格納するものである。RAM104は、ROM103に格納されたプログラムが展開される記憶領域である。スピーカ105は、後述するPC100のコンシェルジュが出力する音声データを音声に変換するものである。音声合成部106は、PC100のコンシェルジュが出力する音声データを、所望の音声に変換されるよう合成するものである。CPU107は、PC100全体の動作を制御するものであり、ROM103に格納された制御プログラムをロードし、PC100の動作によって得られた様々なデータをRAM104に展開するものである。
表示部108は、LCD(Liquid Crystal Display)等で構成される表示画面であり、PC100によって実行されたアプリケーションの結果や図示しないTVチューナによって受信されたテレビ番組を表示するものであり、PC100の出力装置を構成している。入力部109は、キーボード、マウス、タッチパネル等、ユーザがPC100に対して指示を与えるものであり、PC100の入力装置である。電源部110は、PC100に対してAC(Alternative Current:交流)又はDC(Direct Current:直流)電源を与えるものである。ネットワーク接続部111は、インターネットに代表される図示しないネットワーク網に接続され、ネットワーク網とのインタフェースを図るものである。HDD112は、PC100のアプリケーションソフトウェアを格納したり、図示しないTVチューナによって受信されたテレビ番組等のコンテンツを録画したりするものである。なお、表示部108と入力部109は、LCDとタッチパネルとが一体となったタッチパネルディスプレイであっても良い。この場合、キーボードやマウスといった入力装置に代えて、指や図示しないスタイラスペンをタッチパネルディスプレイに接触させて直接文字を書く動作等を行ってデータ入力やコマンド入力といった操作を行うことができる。
次に、図2を参照して、本発明に実施形態における情報処理装置の主要部の構成について説明する。図2は、本発明の実施形態における情報処理装置の主要部の構成について説明する概略ブロック図である。
図2において、本発明の実施形態におけるPC100は、マイク201から入力されたユーザの音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
クライアントアプリケーション部204は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
ユーザからの問い合わせに対する回答が、ローカルコンテンツ部208に格納されていない場合は、PC100単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網207に接続されるネットワーク接続部206を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
クライアントアプリケーション部204は、ローカルコンテンツ部208、又はネットワーク網207から得られた回答をテキスト(文字)データに変換し、テキスト読上部209に渡す。テキスト読上部209は、テキストデータを読み上げ、クライアント型音声合成部210に渡す。クライアント型音声合成部210は、音声データを人間が認識可能な音声データに合成しスピーカ211に渡す。スピーカ211は、音声データ(電気信号)を音声に変換する。また、スピーカ211から音声を発するのに合わせて、ディスプレイ部に当該音声に関連する詳細な情報を表示する。
次に、本発明の実施形態における情報処理装置のソフトウェア機能について説明する。図3は、本発明の実施形態における情報処理装置のソフトウェア機能について説明する機能ブロック図である。
図3に示すように、本発明の実施形態におけるPC100は、ネットワーク313を介して外部に設けられた複数のサーバ701、702、・・・、70Nに接続されている。サーバ701、702、・・・、70Nは、それぞれ、後述する様々な属性に対応する情報を保有している。
そして、PC100は、ユーザから発せられる音声を入力するマイク301と、マイク301から入力された音声入力を音声信号(音声情報)として取り扱い、増幅等を行う音声入力部302と、音声入力部302から入力される音声情報をテキスト情報に変換すると共に、変換されたテキスト情報を所定の音節毎に分節するテキスト解析部303と、分節されたテキスト情報が、如何なる属性に対応する情報であるかを判定し、当該分節されたテキスト情報から属性を取得する要素属性判定部304と、を有している。また、要素属性判定部304は、分節されたテキスト情報と、このテキスト情報から得られる属性との対応関係を一時的に保存する機能も備えている。
さらに、PC100は、サーバ701、702、・・・、70Nのうち、どのサーバが、如何なる属性に対応する情報を保有しているかという情報を予め格納しているサーバAPI(Application Programming Interface)データベース307と、分節されたテキスト情報から得られる属性が、様々な属性に対応する情報を保有しているサーバ701、702、・・・、70Nのうち、どのサーバが保有している属性に対応するものであるかを対応付けて特定するサーバ特定部305と、特定されたサーバにアクセスして、分節されたテキスト情報から得られる属性に対応するサーバから、当該属性に対応する情報を検索する検索部306と、を有している。
そして、PC100は、検索部306によって検索された結果を文章(テキスト情報)として生成する文章生成部310と、文章生成部310によって生成されたテキスト情報(検索結果等)をディスプレイ部205(図2)に表示する表示部309と、テキスト情報で得られた検索結果を、スピーカ312から出力するための音声信号(音声情報)に変換する音声出力部311と、音声出力部311によって変換された音声を出力するスピーカ312と、を有している。
また、後述するように、1つの属性は、ある1つのテキスト情報だけでなく、互いに類似する複数のテキスト情報から得られる場合もある。したがって、分節されたテキスト情報が複数の互いに類似するテキスト情報であっても、同一の属性が得られるようにすることが求められる。そこで、PC100は、用語データベース308を有しており、この用語データベース308には、互いに類似するテキスト情報を纏めた類義語辞書が予め保持されている。
次に、本発明の実施形態における情報処理装置の起動時の画面表示について説明する。図4から図6は、本発明の実施形態における情報処理装置の起動時の画面表示について説明する図である。
本発明の実施形態に係るPC100のコンシェルジュ400、500、600は、起動時の時間帯や曜日に応じて、様々な挨拶を行うことができる。例えば、起動時が朝の時間帯であるときには、図4に示すように、コンシェルジュ400が、「おはようございます!」と発声するのに合わせてディスプレイ部205(図2)に関連情報を表示する。同様に、起動時が昼間の時間帯であれば、図5に示すように、コンシェルジュ500は、「こんにちは!」と発声し、夜の時間帯であれば図6に示すように、コンシェルジュ600は、「こんばんは!」と発声する。また、時間帯以外にも、平日と休日といった曜日に応じた発声も行うことができる。
次に、本発明の実施形態における情報処理装置の具体的な動作について説明する。図7は、本発明の実施形態における情報処理装置の具体的な動作について説明する図である。
PC100が、図4から図6に示したように起動している状態で、ユーザが、知りたい情報、検索したい情報をPC100に対して質問すると、PC100は、その質問に対して回答する。例えば、図7に示すように、ユーザ800が、「チャーリィ!京都までの行き方を教えて」とPC100に対して質問すると、PC100は、入力された音声情報を、「キョウトマデノイキカタヲオシエテ」というテキスト情報に変換すると共に、「キョウト」、「マデ」、「イキカタ」、「オシエテ」に分節し、この分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを、サーバAPIデータベース307(図3)に基づいてテキスト情報毎に特定する。そして、「到着駅は京都ですね。出発駅を教えてください。」と回答する。
この質問と回答とのやり取りで重要なことは、PC100は、ユーザ800から発せられる音声情報である、「チャーリィ!京都までの行き方を教えて」のうち、「チャーリィ」という音声に反応し、この音声に続けて発せられる音声を認識し、ユーザ800との対話を開始しているのである。すなわち、PC100は、ユーザ800から発せられる音声に基づいて、これをテキスト情報に変換し、この変換されたテキスト情報の中に、所定のキーワード(本実施形態の場合は「チャーリィ」というキーワード)が含まれているか否かを判断し、キーワードが含まれていると判断すると、ユーザ800との対話を開始し、このキーワード以降、ユーザ800から発せられる音声情報(質問)を所定のテキスト情報に変換し、この変換された所定のテキスト情報に基づいて特定される、ユーザから要求されるコマンド(例えばユーザから発話される質問に対する回答等)を実行するのである。なお、このキーワードを何にするかは、ユーザが予め定めておくものとする。
また、上記の例では、PC100は、ユーザ800から発せられるある特定の音声情報に反応し、この音声情報に続けて発せられる音声情報をテキスト情報として認識し、所定のコマンドを実行しているが、PC100が、音声認識部102(図1)によりテキスト情報を認識し、所定のコマンドを実行する契機としては、ユーザ800から発せられる特定の音声情報に限定されることなく、音声認識部102によりテキスト情報を認識することができる音声情報であれば、如何なる音源を用いても良いことは勿論である。
そして、PC100は、ユーザ800から質問された「京都までの行き方を教えて」に対して、出発地点がどこであるか分からない、すなわち、ユーザ800からなされた質問に対して検索結果を得ることができない。そこで、PC100は、「京都までの行き方」という検索結果を得るために不足する項目である出発地点に関する情報について確認するため、ユーザ800に対して「到着駅は京都ですね。出発駅を教えてください。」と問い合わせを行っているのである。すなわち、ユーザ800から発せられる自由な表現から、何をすべきかを動的に判断し、検索結果を得るために不足する項目に関する情報を、動的にヒアリングを行っているのである。
そして、ユーザ800が「チャーリィ!麻布十番から」と回答すると、PC100は、出発地点が分かるので、麻布十番から京都までのルートを検索し、「出発駅は、麻布十番ですね。ルートを探します。6件ありました。条件を変えたいときは言ってくださいね!」と回答する。
また、ユーザ800からなされる、「チャーリィ!京都までの行き方を教えて」という質問は、それ以前にルート検索に関する話題を行っていない場面、すなわち、全く別の会話から、突然話題を京都までのルート検索の話に変えても、PC100は追随することができる。さらに、ユーザ800が、「チャーリィ!京都までの行き方を教えて」とだけ質問した場合には、出発地点に関する情報が不足しているので、不足する情報を動的にヒアリングしているのである。
そして、ユーザ800が、検索条件を変えるため、「チャーリィ!伏見まで」というと、ユーザ800が発する「麻布十番から」の「から」や、「伏見まで」の「まで」といった自然な会話表現から、出発地点か目的地なのかを動的に判断するのである。
本実施形態におけるPC100には、音声対話システムのソフトウェアアプリケーションプログラムがインストールされているが、このソフトウェアアプリケーションプログラムを常駐モードにするか、非常駐モードにするかを予め選択することができる。そして、常駐モードを選択すると、次回起動時からはスタートアップ時から起動する。さらに、常駐モードでは、常時、音をモニタリングし、ノイズなのか音声なのかを即座に判断している。
常駐モードにされていると、音声認識されたテキスト情報の中から「チャーリィ」といった所定のキーワードの有無だけを認識し、当該所定のキーワードが認識されると、音声認識されたテキストを、記憶して文脈解析するルーチンに引き渡す動作に移行する。
本実施形態におけるPC100には、一通りの応答、及び結果が存続する時間、具体的には、現在の話題が天気に関するものである場合、その天気に対する一通りの応答、及び天気に関する検索結果が存続する時間として、所定の時間からなる待機時間という概念を用いている。この待機時間は、ユーザ800が、何らかのアクションを起こした場合、例えば、ユーザ800が、話題を天気に関するものから他の話題に変える質問を行った場合、又は、ユーザ800の求めに応じて返事を行った場合、例えば、ユーザ800から、天気に関する話題とは異なる質問がなされ、その質問に応じてPC100が返事を行った場合、の何れかのタイミングにおいてリセットされる。そして、この待機時間は、ユーザ800に対して何らかの検索結果を回答した直後から直ちにカウントされる。
そして、この待機時間の間は、すべての情報、すなわち、ユーザ800との間で取り交わされたすべての情報、具体的には、待機時間が経過する前のキーワード、キーワードに基づいて行った検索、及び検索結果を履歴情報として保持し、活用している。そして、待機時間内に、ユーザ800から新たな質問、及び/又は命令が発せられた場合、この保持している履歴情報を活用することとしている。すなわち、保持している履歴情報に共通する事項を抽出し、当該新たな質問、及び/又は命令を特定する事項と共にキーワードとして検索を行うのである。そして、待機時間が経過すると、待機時間が経過する前に保持されていたキーワード、キーワードに基づいて行った検索、及び検索結果等の履歴を削除する。
また、この待機時間が経過すると、PC100は、ネットワーク接続部206(図2)を介して接続されるネットワーク網207上のサーバとのセッション(接続)を開放する。この時点で、PC100にそれまで保持されていたサーバから得た情報が破棄される。そして、ユーザ800によるPC100を用いた他の作業の邪魔にならないよう、さらに、待機時間が経過したこと(PC100のモードが変わったこと)を示すため、PC100の表示部108(図1)のウィンドウモード(ユーザインタフェース)を、図9に示すようなコンパクトなウィンドウモードに移行する。図9は、本発明の実施形態における情報処理装置のユーザインタフェースが最小化された時の画面表示について説明する図である。
そして、PC100は、ユーザ800から発せられる次のコマンドを待つ。この状態では、キーワード、キーワードに基づいて行った検索、及び検索結果の履歴情報を保持している待機時間を既に経過しているので、ユーザ800から発せられる音声情報に、所定のキーワード(本実施形態の場合は「チャーリィ」というキーワード)が含まれているか否かを判断し、キーワードが含まれていると判断すると、ユーザ800から入力される音声情報から認識されたテキスト情報に含まれる質問をキーワードとして検索を行い、検索結果を出力しているのである。
なお、待機時間経過後、PC100を、ウェークアップさせる契機として、上記所定のキーワード(後述するウェークアップワード、本実施形態では、「チャーリィ」)の認識以外に、例えば、ディスプレイ部205(図2)に表示された所定のボタンをマウスポインタでクリックする、PC100のハードウェアボタンを押下する、又は、ユーザ800が発する声により声紋を認識する等、如何なる方法を用いても良いことは勿論である。
そして、ユーザ800から発せられる質問に対しローカルコンテンツ部208に格納されている情報で回答が済む場合は、ネットワーク網207に接続することなく回答を行い、ネットワーク網207に対するアクセスが必要な質問であれば、セッションを接続し、新たな状態、すなわち、履歴情報がない状態で質問に対する回答を検索する。
このように、ユーザは、PC100を起動状態にさえしておけば、後は、今やっている普通の作業(読書等)を何ら中断することなく、すなわち、PC100とは無関係の作業を行っていたり、PC100を使って何か別の作業を行っていたりしても、PC100に触れることなく、PC100に対して自然な言い方で質問すれば、PC100は回答してくれるのである。これにより、ユーザ800は、外出する前に、素早く簡単に乗り換え情報を調べることができる。また、回答結果が得られない場合であっても、PC100が誘導してくれるのである。
そして、PC100は、上述したように、オフライン状態にあるローカルコンテンツ部208(図2)を有しており、ユーザ800からなされた質問に対する回答が、このローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、ネットワーク接続部206(図2)を介してネットワーク網207に接続することなく、ユーザに対してスピーカ211(図2)から回答を行う。要するに、ネットワーク網207に対しては、必要に応じて接続し、検索を行い、ローカルコンテンツ部208に格納されている情報で回答が済む場合は、ネットワーク網207に接続しないのである。
次に、ユーザ800からなされる質問に対してPC100が検索結果を得ることができるか否かを判断した結果、検索結果を得るための情報が不足していると判断すると、PC100はユーザ800に対して不足情報を要求するといった、具体的な音声解析の中身について説明する。
図7で説明した乗り換え情報の対話検索において、検索を実行するためには、出発地、到着地といった場所、移動方法(移動手段)、出発時間、到着時間、所要時間、交通費等といった検索のための必須情報と、この必須情報に対応する情報(出発駅、到着駅、電車、午前10時、午後2時、2時間、5000円等)と、が必要となる。図7の例では、出発駅、及び到着駅については検索のための必須情報であり、移動方法については、必須情報ではなくオプション情報に対応するものである。
ユーザ800からなされる、「チャーリィ!京都までの行き方を教えて」という質問では、検索のための必須項目のうち、場所の属性情報に対応する値である到着駅に関する情報を得ることはできるが、場所情報に対応する出発駅に関する情報を得ることができない。そこで、PC100は、不足項目の情報(出発地)に対応する情報である出発駅に関する情報を得るために、「到着駅は京都ですね。出発駅を教えてください。」と言うことにより、不足項目を補充するための音声情報を要求している。すなわち、検索結果を得るための必須項目がすべて満たされているか否かを判断し、必須項目がすべて満たされていないときは、不足項目を補充するための音声情報を順次要求すると共に、既に取得した検索のための情報、及び順次取得した不足項目を補充するための情報により、必須項目をすべて満たしているとき、に検索を開始し、検索結果を出力しているのである。
そして、図7の例では、ユーザ800からなされる、「チャーリィ!京都までの行き方を教えて」という質問のうち、「まで」というキーワードを認識することにより、乗り換え案内の検索に移行している。このように、例えば外出する前等に、検索のためのキーワードを会話の最初からすべて入力することなく、自然な会話で、声だけで簡単に、しかも快適に情報を調べることができるのである。
次に、本発明の実施形態における情報処理装置の動作について説明する。図8は、本発明の実施形態における情報処理装置の動作について説明するフローチャートである。
図8において、ステップ(以下、「S」という。)801の処理では、まず、PC100のマイク301(図3)から音声が入力される。入力された音声は、音声入力部302において音声信号(音声情報)として取り扱われ、増幅等が行われた後、S802の処理へ移行する。S802の処理では、テキスト解析部303において、音声情報がテキスト情報に変換されると共に、所定の音節毎に分節され解析される。そして、S803の処理では、要素属性判定部304において、分節されたテキスト情報が、如何なる属性に対応する情報であるかが判定され、S804の処理へ移行する。
S804の処理では、サーバAPIデータベース307(図3)を参照することにより、分節されたテキスト情報から得られる属性のうち、サーバ701、702、・・・、70Nが保有している属性に対応しない要素、すなわち、属性が確定しない要素(テキスト情報)があるか否かが判断される。属性が確定しない要素がある(S804:YES)と判断されると、S810の処理へ移行し、属性が確定しない要素がない(S804:NO)と判断されると、S805の処理へ移行する。
S810の処理では、分節されたテキスト情報の属性を確定するための音声情報を要求する旨の質問がなされる。そして、要求された音声情報が入力されると、再びS801の処理を行う。属性の確定しない要素がないとき(S804:NO)、又は、S810の処理で要求された音声情報をテキスト情報に変換した結果、当該テキスト情報から属性を得ることができ、属性の確定しない要素がないとき(S804:NO)は、S805の処理において、テキスト情報から得られる属性に対応する情報を保有するサーバが、サーバ特定部305(図3)によって特定される。
S806の処理では、S805の処理で特定されたサーバを用いて検索を実行する際、分節されたテキスト情報が、検索を実行するための必須項目(必須要件)をすべて満たしているか(不足項目があるか)否かが判断される。不足項目がある(S806:YES)と判断されると、S811の処理へ移行し、不足項目がない(S806:NO)と判断されると、S807の処理へ移行する。
S811の処理では、不足項目を補充するための質問、すなわち、音声情報の入力を要求する。そして、要求された音声情報が入力されると、再びS801の処理を行う。不足項目がない(S806:NO)と判断されたとき、又はS811の処理で要求された音声情報をテキスト情報に変換し、当該テキスト情報から得られる属性に基づいて行う検索の不足項目が補充され、不足項目がない(S806:NO)と判断されたときは、S807の処理において、S805の処理で特定されたサーバを用いた検索が開始される。
S808の処理では、S807の処理で検索が実行された結果、検索結果(ある属性に対応する情報)の情報量が所定の閾値以上(検索結果の情報量が所定の閾値未満)であるか否かが判断される。所定の閾値以上(所定の閾値未満)である(S808:NO)と判断されると、S812の処理へ移行し、所定の閾値未満である(S808:YES)と判断されると、S809の処理へ移行する。なお、この所定の閾値は、検索対象となる属性に応じて、任意の値に設定することが可能である。
S812の処理では、検索結果(ある属性に対応する情報)の情報量を所定の閾値未満に絞り込むための質問、すなわち、音声情報の入力を要求する。そして、要求された音声情報が入力されると、再びS801の処理を行う。検索結果の情報量が所定の閾値未満である(S808:YES)と判断されたとき、又はS812の処理で要求された音声情報をテキスト情報に変換し、当該テキスト情報から得られる属性に基づいて行う検索結果の情報量が所定の閾値未満である(S808:YES)と判断されたときは、S809の処理へ移行する。S809の処理では、検索結果がスピーカ211(図2)から出力されると共に、ディスプレイ部205(図2)に表示される。
なお、図8に示した本発明の実施形態における情報処理装置100を構成する各機能ブロックの各動作は、コンピュータ上のプログラムに実行させることもできる。すなわち、情報処理装置100のCPU107が、ROM103、RAM104等から構成される記憶部に格納されたプログラムをロードし、プログラムの各処理ステップが順次実行されることによって行われる。
以上説明してきたように、本発明によれば、入力される音声情報をテキスト情報に変換する手段と、変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、データベースに格納された情報に基づいて、分節されたテキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、対応付けられたサーバから属性に対応する情報を検索する際、分節されたテキスト情報が、検索のための必須項目をすべて満たしているか否かを判断する手段と、必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する手段と、を含むことにより、これまでに得た情報では条件が不十分であって、検索を実行することができないとき、ユーザに働きかけ検索に必要な情報を自動的に補足することができるのである。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨及び範囲から逸脱することなく、これら具体例に様々な修正及び変更が可能である。
100 情報処理装置(PC)
101、201、301 マイク
102 音声認識部
103 ROM
104 RAM
105、211 スピーカ
106 音声合成部
107 CPU
108 表示部
109 入力部
110 電源部
111 ネットワーク接続部
112 HDD
202 音声信号解釈部
203 クライアント型音声認識部
204 クライアントアプリケーション部
205 ディスプレイ部
206 ネットワーク接続部
207、313 ネットワーク
208 ローカルコンテンツ部
209 テキスト読上部
210 クライアント型音声合成部
211、312 スピーカ
302 音声入力部
303 テキスト解析部
304 要素属性判定部
305 サーバ特定部
306 検索部
307 サーバAPIデータベース
308 用語データベース
309 表示部
310 文章生成部
311 音声出力部
400、500、600、900 コンシェルジュ
701、702、・・・、70N サーバ
800 ユーザ

Claims (5)

  1. 入力される音声情報をテキスト情報に変換する手段と、
    前記変換されたテキスト情報を分節する手段と、
    外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、
    前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、
    前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する手段と、
    前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する手段と、
    を含むことを特徴とする情報処理装置。
  2. 前記不足項目を補充するための音声情報を獲得すると、前記音声情報をテキスト情報に変換し、前記データベースの中から前記テキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索することを特徴とする請求項1に記載の情報処理装置。
  3. 前記必須項目をすべて満たしているとき、前記テキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、
    入力される音声情報をテキスト情報に変換する工程と、
    前記変換されたテキスト情報を分節する工程と、
    前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、
    前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する工程と、
    前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する工程と、
    を含むことを特徴とする制御方法。
  5. 外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置のコンピュータに、
    入力される音声情報をテキスト情報に変換する処理と、
    前記変換されたテキスト情報を分節する処理と、
    前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、
    前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する処理と、
    前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する処理と、
    を実現させるためのプログラム。
JP2013204748A 2013-09-30 2013-09-30 情報処理装置、制御方法、及びプログラム Pending JP2015069103A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013204748A JP2015069103A (ja) 2013-09-30 2013-09-30 情報処理装置、制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013204748A JP2015069103A (ja) 2013-09-30 2013-09-30 情報処理装置、制御方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015069103A true JP2015069103A (ja) 2015-04-13

Family

ID=52835789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013204748A Pending JP2015069103A (ja) 2013-09-30 2013-09-30 情報処理装置、制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2015069103A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794218A (zh) * 2015-04-28 2015-07-22 百度在线网络技术(北京)有限公司 语音搜索方法和装置
JP2018041155A (ja) * 2016-09-05 2018-03-15 株式会社野村総合研究所 音声注文受付システム
CN108010523A (zh) * 2016-11-02 2018-05-08 松下电器(美国)知识产权公司 信息处理方法以及记录介质
US10957327B2 (en) 2017-12-07 2021-03-23 Toyota Jidosha Kabushiki Kaisha Service providing device and computer-readable non-transitory storage medium storing service providing program
US11100924B2 (en) 2017-12-11 2021-08-24 Toyota Jidosha Kabushiki Kaisha Service providing device, non-transitory computer-readable storage medium storing service providing program and service providing method
US11113025B2 (en) 2017-12-11 2021-09-07 Toyota Jidosha Kabushiki Kaisha Interaction management device and non-transitory computer readable recording medium
JP2022189081A (ja) * 2021-06-10 2022-12-22 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076040A (ja) * 1998-09-03 2000-03-14 Matsushita Electric Ind Co Ltd 音声入力ネットワーク端末装置
JP2002023783A (ja) * 2000-07-13 2002-01-25 Fujitsu Ltd 対話処理システム
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076040A (ja) * 1998-09-03 2000-03-14 Matsushita Electric Ind Co Ltd 音声入力ネットワーク端末装置
JP2002023783A (ja) * 2000-07-13 2002-01-25 Fujitsu Ltd 対話処理システム
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794218A (zh) * 2015-04-28 2015-07-22 百度在线网络技术(北京)有限公司 语音搜索方法和装置
JP2016212826A (ja) * 2015-04-28 2016-12-15 百度在線網絡技術(北京)有限公司 音声検索を行う方法及び装置
CN104794218B (zh) * 2015-04-28 2019-07-05 百度在线网络技术(北京)有限公司 语音搜索方法和装置
JP2018041155A (ja) * 2016-09-05 2018-03-15 株式会社野村総合研究所 音声注文受付システム
CN108010523A (zh) * 2016-11-02 2018-05-08 松下电器(美国)知识产权公司 信息处理方法以及记录介质
US10957327B2 (en) 2017-12-07 2021-03-23 Toyota Jidosha Kabushiki Kaisha Service providing device and computer-readable non-transitory storage medium storing service providing program
US11100924B2 (en) 2017-12-11 2021-08-24 Toyota Jidosha Kabushiki Kaisha Service providing device, non-transitory computer-readable storage medium storing service providing program and service providing method
US11113025B2 (en) 2017-12-11 2021-09-07 Toyota Jidosha Kabushiki Kaisha Interaction management device and non-transitory computer readable recording medium
JP2022189081A (ja) * 2021-06-10 2022-12-22 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
JP7295445B2 (ja) 2021-06-10 2023-06-21 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム

Similar Documents

Publication Publication Date Title
US12008325B2 (en) Context-based natural language processing
US10573309B2 (en) Generating dialog recommendations for chat information systems based on user interaction and environmental data
KR102475719B1 (ko) 서드 파티 에이전트를 사용하기 위한 호출 요청 생성 및 전송
JP7418526B2 (ja) 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
US11423885B2 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
JP6799082B2 (ja) 音声アクション発見可能性システム
KR101772032B1 (ko) 음성 작동형 문서 탐색 및 브라우징을 위한 디바이스, 방법 및 사용자 인터페이스
US9805718B2 (en) Clarifying natural language input using targeted questions
US20180285595A1 (en) Virtual agent for the retrieval and analysis of information
Schalkwyk et al. “Your word is my command”: Google search by voice: A case study
CN108648750B (zh) 混合模型语音识别
CN112868060B (zh) 用户、自动化助理和其它计算服务之间的多模态交互
JP2015069103A (ja) 情報処理装置、制御方法、及びプログラム
US11016968B1 (en) Mutation architecture for contextual data aggregator
JP2019050019A (ja) 提案される音声ベースのアクションクエリの提供
JP6069157B2 (ja) 情報処理装置、制御方法、及びプログラム
CN112292724A (zh) 用于调用自动助理的动态和/或场境特定热词
CN114375449A (zh) 使用上下文数据进行对话处理的技术
JP2015052743A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
CN116368459A (zh) 用于智能听写的自动化助理的话音命令
JP2015052745A (ja) 情報処理装置、制御方法、及びプログラム
JP5936588B2 (ja) 情報処理装置、制御方法、及びプログラム
Gupta et al. Desktop Voice Assistant
US11842737B2 (en) Automated assistant interaction prediction using fusion of visual and audio input
JP2015052744A (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150811

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151208