JP2014010449A

JP2014010449A - ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム

Info

Publication number: JP2014010449A
Application number: JP2013077303A
Authority: JP
Inventors: Seung-Il Yoon; 勝一尹; Sang-Hee Kim; 相姫金; Jie-Chol Kim; 裁徹金; Sang Kwon Yi; 相權李; Cheon Seong Lee; 天成李; Hye-Jeong Lee; ▲へ▼ 汀李; Jae-Wook Jung; 宰旭鄭; Tae Hwan Cha; 泰煥車
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-06-27
Filing date: 2013-04-03
Publication date: 2014-01-20
Also published as: MX2014014671A; EP2919472A1; US20140006022A1; WO2014003283A1; BR112014032094A2; CN103516711A; KR20140001105A; EP2680596A1; RU2015102291A; KR101309794B1

Abstract

【課題】本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法および対話型システムを提供することにある。
【解決手段】ディスプレイ装置が開示される。本ディスプレイ装置は、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、ユーザの音声を第１サーバに伝送し、第１サーバからユーザの音声に対応するテキスト情報を受信する第１通信部と、受信されたテキスト情報を第２サーバに伝送する第２通信部と、テキスト情報に対応する応答情報が第２サーバから受信されると、応答情報に基づいて、ユーザの音声に対応する応答メッセージを出力するように出力部を制御する制御部とを含む。
【選択図】図２

Description

本発明は、ディスプレイ装置、ディスプレイ装置の制御方法および対話型システムに関し、より詳細には、ユーザの音声に応じて制御されるディスプレイ装置、ディスプレイ装置の制御方法および対話型システムに関する。

電子技術の発達により、多様な種類のディスプレイ装置が開発および普及され、ユーザの要求に応じて益々多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。

一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。

しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザとの対話を通じてインタラクティブな情報を提供することができないという限界が存在していた。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法および対話型システムを提供することにある。

以上のような目的を達成するための本発明の一実施形態に係るディスプレイ装置は、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信する第１通信部と、前記受信されたテキスト情報を第２サーバに伝送する第２通信部と、前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するように前記出力部を制御する制御部とを含む。

ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記制御部は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で、前記出力部を介して出力してよい。

なお、前記応答情報は、前記ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。

一方、前記第２サーバは、前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成してよい。

一方、本発明の一実施形態に係るディスプレイ装置の制御方法は、ユーザの音声を収集するステップと、前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第２サーバに伝送するステップと、前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するステップとを含む。

ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記出力するステップは、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力してよい。

一方、本発明の一実施形態に係る第１サーバと、第２サーバおよび前記第１サーバと前記第２サーバとを連動するディスプレイ装置を含む対話型システムは、前記ディスプレイ装置からユーザ音声が受信されると、前記ユーザ音声に対応するテキスト情報を前記ディスプレイ装置に伝送する第１サーバと、前記ディスプレイ装置から前記テキスト情報が受信されると、前記テキスト情報に対応する応答情報を前記ディスプレイ装置に伝送する第２サーバと、前記第２サーバから前記応答情報が受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するディスプレイ装置とを含む。

ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記ディスプレイ装置は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力してよい。

以上説明したように、本発明によれば、ユーザと対話可能なディスプレイ装置を提供することができ、ユーザの便宜性を向上させることができる。

本発明の一実施形態に係る対話型システムを説明するための図である。図１に示す対話型システムの各動作を説明するためのタイミング図である。図１に示すディスプレイ装置の構成を説明するためのブロック図である。図３に示すディスプレイ装置の細部構成を説明するためのブロック図である。図１に示す第１サーバの構成を説明するためのブロック図である。図１に示す第２サーバの構成を説明するためのブロック図である。本発明の別の実施形態に係る対話型システムを説明するための図である。図７に示す対話型システムの各動作を説明するためのタイミング図である。本発明の一実施形態に係る対話型システムの動作を説明するための図である。本発明の一実施形態に係る対話型システムの動作を説明するための図である。本発明の一実施形態に係る対話型システムの動作を説明するための図である。本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。

図１は、本発明の一実施形態に係る対話型システム１０００を説明するための図である。図１に示すように、対話型システムは、ディスプレイ装置１００と、第１サーバ２００と、第２サーバ３００および外部機器４００を含む。例えば、ディスプレイ装置１００は、図１に示すように、テレビであってよいが、それは一実施形態に過ぎず、スマートフォンのような携帯電話、デスクトップパソコン、ノートパソコン、ナビゲーション等のような多様な電子装置で実現されてよい。

一方、ディスプレイ装置１００は、ディスプレイ装置１００を制御するための遠隔制御装置（図示せず）によって制御されてよい。例えば、ディスプレイ装置１００がテレビで実現された場合、リモコン（図示せず）から受信された制御信号に応じて電源オン／オフ、チャネル変換、音量変更等の動作を行うことができる。

なお、外部機器４００は、多様な電子装置で実現されてよい。例えば、外部機器４００は、図１に示すように、ＤＶＤプレーヤであってよいが、それは一例に過ぎない。すなわち、外部機器４００は、セットトップボックス、音響機器、ゲーム機等のように、ディスプレイ装置１００に接続されて機能を行うことができる電子装置で実現されてよい。

ディスプレイ装置１００は、ユーザ音声に応じて多様な機能を行うことができる。

具体的に、ディスプレイ装置１００は、ユーザの音声に対応する応答メッセージを出力するか、ユーザ音声に対応する機能を行ったり、ユーザの音声に対応する機能を行うように、外部機器４００を制御することができる。

そのために、ディスプレイ装置１００は、収集されたユーザの音声を第１サーバ２００に伝送する。第１サーバ２００は、ディスプレイ装置１００からユーザの音声が受信されると、受信されたユーザの音声をテキスト情報（または、テキスト）に変換し、テキスト情報をディスプレイ装置１００に伝送する。

そして、ディスプレイ装置１００は、第１サーバ２００から受信されたテキスト情報を第２サーバ３００に伝送する。第２サーバ３００は、ディスプレイ装置１００からテキスト情報が受信されると、受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置１００に伝送する。

ディスプレイ装置１００は、第２サーバ３００から受信された応答情報に基づいて、多様な動作を行うことができる。

具体的に、ディスプレイ装置１００は、ユーザの音声に対応する応答メッセージを出力することができる。ここで、応答メッセージは、音声およびテキストのうち少なくとも一方で出力されてよい。例えば、ディスプレイ装置１００は、特定番組の放送時間を問い合わせるユーザの音声が入力されると、当該番組の放送時間を音声またはテキスト形態で出力したり、これらの組み合わせで出力してよい。

なお、ディスプレイ装置１００は、ユーザの音声に対応する機能を行うことができる。すなわち、ディスプレイ装置１００は、ディスプレイ装置１００から提供可能な機能のうち、ユーザの音声に対応する機能を行うことができる。例えば、ディスプレイ装置１００は、チャネル変更のためのユーザの音声が入力されると、当該チャネルを選局してディスプレイすることができる。

この場合、ディスプレイ装置１００は、当該機能に対応する応答メッセージを併せて提供することもできる。すなわち、ディスプレイ装置１００は、ユーザの音声に応じて行われた機能に対する情報を音声またはテキスト形態で出力するか、これらの組み合わせで出力することができる。上述の例の場合、ディスプレイ装置１００は、変更されたチャネルに対する情報またはチャネル変更が完了していることを示すメッセージを、音声およびテキストのうち少なくとも一方で出力することができる。

なお、ディスプレイ装置１００は、ユーザの音声に対応する機能を行うように、外部機器４００を制御することができる。すなわち、ディスプレイ装置１００は、外部機器４００から提供可能な機能のうち、ユーザの音声に対応する機能を行うように外部機器４００を制御することができる。そのために、ディスプレイ装置１００は、ユーザの音声に対応する機能を行うための制御命令を外部機器４００に伝送することができる。

例えば、外部機器４００が、図１に示すように、ＤＶＤプレーヤで実現された場合、ディスプレイ装置１００は、ユーザの音声に応じて、ＤＶＤプレーヤの電源をオン／オフさせるための制御命令、再生のための制御命令、一時停止のための制御命令等をＤＶＤプレーヤに伝送することができる。

しかし、それは外部機器４００がＤＶＤプレーヤで実現された場合の一例に過ぎない。すなわち、ディスプレイ装置１００は外部機器４００の種別でユーザの音声に対応する機能を行うための制御命令を外部機器４００に伝送することができる。例えば、外部機器４００がセットトップボックスで実現された場合、ディスプレイ装置１００はチャネルを転換するためのユーザの音声に基づいてチャネル転換のための制御命令をセットトップボックスに伝送することもできる。

一方、図１の対話型システム１０００に外部機器４００が含まれるものとして示しているが、それは一例に過ぎず、必ずしも外部機器４００が含まれなければならないというわけではない。

ただ、ディスプレイ装置１００は、外部機器４００が接続されていない状態で、外部機器４００を制御するためのユーザの音声が入力されると、ユーザの音声による動作を行うことができないことを示すメッセージを出力することができる。例えば、図１のような対話型システム１０００でＤＣＤプレーヤが接続されていない状態で、ＤＶＤプレーヤの電源をオフにさせるためのユーザの音声が入力されると、ディスプレイ装置１００は“ＤＶＤプレーヤが接続されていません。”または“ＤＶＤプレーヤの接続を確認して下さい”のようなメッセージを音声およびテキストのうち、少なくとも一方の形態で出力することができる。

図２は、図１に示す対話型システムの各動作を説明するためのタイミング図である。

図２に示すように、ディスプレイ装置１００は、ユーザ音声を収集し（Ｓ１０）、第１サーバ２００に伝送する（Ｓ２０）。具体的に、ユーザ音声を収集するためのモードが開始されると、ディスプレイ装置１００は予め設定された距離以内において、ユーザが発話した音声を収集して第１サーバ２００に伝送することができる。

そのために、ディスプレイ装置１００は、ユーザが発話した音声を入力されるためのマイク等を備えてよい。この場合、マイクは、ディスプレイ装置１００に内蔵されて一体型をなすか、ディスプレイ装置１００と分離した形態で実現されてよい。分離した形態で実現される場合、マイクはユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置１００と有線または無線ネットワークを通じて接続されてよい。

第１サーバ２００は、ディスプレイ装置１００から受信されたユーザ音声をテキスト情報に変換する（Ｓ３０）。具体的に、第１サーバ２００は、ＳＴＴ（ＳｐｅｅｃｈＴｏＴｅｘｔ）アルゴリズムを用いて、ディスプレイ装置１００から受信されたユーザの音声をテキスト情報に変換することができる。そして、第１サーバ２００は、テキスト情報をディスプレイ装置１００に伝送する（Ｓ４０）。

ディスプレイ装置１００は、第１サーバ２００から受信されたテキスト情報を第２サーバ３００に伝送する（Ｓ５０）。第２サーバ３００は、ディスプレイ装置１００からテキスト情報が受信されると、テキスト情報に対応する応答情報を生成する。

ここで、応答情報は、ディスプレイ装置１００から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージは、ディスプレイ装置１００から収集されたユーザの音声に対応する回答として、応答メッセージ情報はユーザの音声に対してディスプレイ装置１００から出力される応答メッセージがテキスト形式で表現されるものであってよい。それにより、ディスプレイ装置１００は、応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

なお、応答情報は、ユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令は、ユーザの音声に対応する機能を行うようにディスプレイ装置１００を制御するための制御命令またはユーザの音声に対応する機能を行うように、外部機器４００を制御するための制御命令を含んでよい。それにより、ディスプレイ装置１００は、ユーザの音声による機能を行うか、ユーザの音声による機能が行われるように外部機器４００を制御することができる。

一方、ディスプレイ装置１００は受信された応答情報に基づいて、ユーザの音声に対応する動作を行う（Ｓ８０）。

具体的に、ディスプレイ装置１００は応答情報に含まれた応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。すなわち、ディスプレイ装置１００は、第２サーバ３００からテキスト形式の応答メッセージ情報が受信されると、ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）アルゴリズムを用いてテキストを音声に変換して出力したり、応答メッセージ情報を構成するテキストが含まれるように、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）画面を構成して出力することができる。

例えば、ディスプレイ装置１００で“○○○（放送番組名）は何時から？”というユーザ音声が収集された場合、第２サーバ３００は、“土曜日の夕方７時からです”というテキスト形式の応答メッセージ情報をディスプレイ装置１００に伝送することができる。それにより、ディスプレイ装置１００は、“土曜日の夕方７時からです”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

なお、ディスプレイ装置１００は、応答情報に含まれた制御命令に従って、ユーザの音声に対応する機能を行うように制御することができる。例えば、“ディスプレイ装置１００で○○○（放送番組名）を録画して”というユーザの音声が収集された場合、第２サーバ３００は“○○○”の予約録画機能を行うための制御命令をディスプレイ装置１００に伝送することができる。それにより、ディスプレイ装置１００は、当該放送番組に対する予約録画を行うことができる。

別の例として、図１のように、外部機器４００がＤＶＤプレーヤで実現された場合を仮定する。この場合、“ＤＶＤプレーヤをつけて”というユーザの音声が収集されると、第２サーバ３００はＤＶＤプレーヤの電源をオンさせるための制御命令をディスプレイ装置１００に伝送することができる。それにより、ディスプレイ装置１００は、電源をオンさせるための制御命令をＤＶＤプレーヤに伝送し、ＤＶＤプレーヤの電源をオンさせることができる。

この場合、応答情報は、ディスプレイ装置１００で行われる機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第２サーバ３００は“○○○の録画が予約されました”というテキスト形式の応答メッセージ情報をディスプレイ装置１００に制御命令とともに伝送し、ディスプレイ装置１００は予約録画機能の実行とともに、“○○○の録画が予約されました”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

なお、応答情報は、外部機器４００で行われる機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第２サーバ３００は“ＤＶＤプレーヤの電源を入れました”というテキスト形式の応答メッセージ情報をディスプレイ装置１００に制御命令とともに伝送し、ディスプレイ装置１００は、ＤＶＤプレーヤの電源をオンさせる動作とともに、“ＤＶＤプレーヤの電源を入れました”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

図３は、図１に示すディスプレイ装置の構成を説明するためのブロック図である。

図３に示すように、ディスプレイ装置１００は、出力部１１０と、音声収集部１２０と、第１通信部１３０と、第２通信部１４０および制御部１５０を含む。特に、図３は、外部機器４００を除き、対話型システム１０００を実現した場合に、ディスプレイ装置１００の構成を説明するためのブロック図である。よって、外部機器４００を含んで対話型システム１０００を実現した場合、ディスプレイ装置１００は、外部機器４００との通信のための別途の構成要素を更に含んでよい。出力部１１０は、音声および映像のうち少なくとも一方を出力する。具体的に、出力部１１０は、音声収集部１２０を介して収集されたユーザの音声に対応する音声メッセージを音声およびテキストのうち、少なくとも一方を形態で出力してよい。

そのために、出力部１１０は、ディスプレイ部（図示せず）およびオーディオ出力部（図示せず）を備えてよい。

具体的に、ディスプレイ部（図示せず）は、液晶表示装置（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、有機電気発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｓｐｌａｙ、ＯＬＥＤ）またはプラズマ表示パネル（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ、ＰＤＰ）等で実現され、ディスプレイ装置１００を介して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部（図示せず）は、ユーザの音声に対応する応答メッセージをテキストまたはイメージ形態でディスプレイすることができる。

ここで、ディスプレイ部（図示せず）がタッチパッドとともに相互レイヤ構造をなすタッチスクリーン形態で実現されてよく、タッチスクリーンはタッチ入力位置、面積、タッチ入力の圧力までも検出するように構成されてよい。

一方、オーディオ出力部（図示せず）は、ジャック等のような出力ポートまたはスピーカ等で実現され、ユーザの音声に対応する応答メッセージを音声形態で出力することができる。

一方、出力部１１０は、多様な映像およびオーディオを出力することができる。ここで、映像およびオーディオは、放送コンテンツやマルチメディアコンテンツ等を構成する映像およびオーディオであってよい。

音声収集部１２０は、ユーザの音声を収集する。例えば、音声収集部１２０は、ユーザの音声を収集するためのマイクロで実現され、ディスプレイ装置１００に内蔵されて一体型をなすか、ディスプレイ装置１００と分離された形態で実現されてよい。分離された形態で実現される場合、音声収集部１２０は、ユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置１００と有線または無線ネットワークを通じて接続されて収集されたユーザの音声をディスプレイ装置１００に伝送することができる。

一方、音声収集部１２０は、収集された音声がユーザの音声かを判断し、ユーザの音声からノイズ（例えば、エアコンの音や掃除機の音、音楽の音等）をフィルタリングすることもできる。

例えば、音声収集部１２０は、アナログ形態のユーザ音声が入力されると、それをサンプリングしてデジタル信号に変換する。そして、音声収集部１２０は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上であるか否かを判断する。

デジタル信号のエネルギーが予め設定された値以上である場合、音声収集部１２０はデジタル信号からノイズ成分を除去し、第１通信部１３０に伝達する。このとき、ノイズ成分は、家庭環境で発生し得る突発性雑音として、エアコンの音や掃除機の音、音楽の音等が含まれてよい。一方、デジタル信号のエネルギーが予め設定された値未満である場合、音声収集部１２０はデジタル信号に特別な処理過程を経ずに、別の入力を待つ。

それにより、ユーザの音声ではない別の音によって全オーディオ処理過程が活性化しないため、不要な電力消耗を防止することができる。

第１通信部１３０は、第１サーバ（図１の２００）と通信を行う。具体的に、第１通信部１３０は、ユーザの音声を第１サーバ２００に伝送し、ユーザの音声に対応するテキスト情報を第１サーバ２００から受信してよい。

第２通信部１４０は、第２サーバ（図１の３００）と通信を行う。具体的に、第２通信部１４０は、受信されたテキスト情報を第２サーバ３００に伝送し、テキスト情報に対応する応答情報を第２サーバ３００から受信してよい。

そのために、第１通信部１３０および第２通信部１４０は、多様な通信方式を用いて第１サーバ２００および第２サーバ３００と通信を行うことができる。

例えば、第１通信部１３０および第２通信部１４０は、有／無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ、イーサネット（登録商標）、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標））、Ｚｉｇｂｅｅ（登録商標）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＩＥＥＥ１３９４、Ｗｉ−Ｆｉ等を用いて、第１サーバ２００および第２サーバ３００と通信を行うことができる。そのために、第１通信部１３０および第２通信部１４０は、各通信方式に対応するチップまたは入力ポート等を具備することができる。例えば、有線ＬＡＮ方式で通信を行う場合、第１通信部１３０および第２通信部１４０は、有線ＬＡＮカード（図示せず）および入力ポート（図示せず）を備えてよい。

一方、上述の実施形態では、ディスプレイ装置１００が第１サーバ２００および第２サーバ３００と通信を行うために、別途の通信部１３０、１４０を備えるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置１００は一つの通信モジュールを通じて第１サーバ２００および第２サーバ３００と通信を行うことができることは言うまでもない。

制御部１５０は、ディスプレイ装置１００の動作全般を制御する。具体的に、制御部１５０は、音声収集部１２０を介してユーザの音声を収集し、収集されたユーザの音声を第１サーバ３００に伝送するように第１通信部１３０を制御することができる。そして、制御部１５０は、ユーザの音声に対応するテキスト情報を受信するように、第１通信部１３０を制御することができる。

一方、制御部１５０は、テキスト情報に対応する応答情報が第２サーバ３００から受信されると、応答情報に基づいてユーザの音声に対応する応答メッセージを出力するように出力部１１０を制御することができる。

ここで、応答情報は、応答メッセージを出力するための応答メッセージ情報を含んでよい。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置１００から出力される応答メッセージがテキスト形式で表現されたものとして、制御部１５０は応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力部１１０を介して出力することができる。

具体的に、制御部１５０は、ＴＴＳエンジンを用いて、テキスト形態の応答メッセージ情報を音声に変換して出力部１１０を介して出力することができる。ここで、ＴＴＳエンジンとは、テキストを音声に変換するためのモジュールとして、従来開示されている多様なＴＴＳアルゴリズムを用いてテキストを音声に変換することができる。なお、制御部１５０は、応答メッセージ情報を構成するテキストを含むように、ＵＩ画面を構成して出力部１１０を介して出力することもできる。

例えば、テレビで実現されたディスプレイ装置１００が“最も人気のある番組名を教えて”というユーザの音声を収集すると、第２サーバ３００は“最も人気のある番組は○○○（放送番組名）です”をテキスト形式で表示してディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、“最も人気のある番組は○○○（放送番組名）です”を音声に変換して出力部１１０を介して出力したり、“最も人気のある番組は○○○（放送番組名）です”というテキストが含まれるように、ＵＩ画面を構成して出力部１１０を介して出力するように制御することができる。

なお、応答情報は、ディスプレイ装置１００の機能を制御するための制御命令を含んでよい。ここで、制御命令は、ディスプレイ装置１００で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部１５０は、第２サーバ３００から受信された制御命令に基づいて、ユーザの音声に対応する機能が実行されるようにディスプレイ装置１００の各構成要素を制御することができる。

例えば、テレビで実現されたディスプレイ装置１００が“テレビの音量を上げて”というユーザ音声を収集すると、第２サーバ３００はディスプレイ装置１００の音量を上げるための制御命令をディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、制御命令に基づいて出力部１１０を介して出力されるオーディオの音量を上げることができる。ただ、それは一例に過ぎず、制御部１５０は、収集されたユーザの音声に応じて、電源オン／オフ、チャネル変更等の多様な動作が行われるように、ディスプレイ装置１００の各構成要素を制御することができる。

なお、応答情報は、制御命令に従って実行された機能に関連する応答メッセージ情報を含んでよい。この場合、制御部１５０は、制御命令による機能を行い、応答メッセージ情報に基づいて実行された機能に関連する応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。

例えば、テレビで実現されたディスプレイ装置１００が“チャネルを１１番に変更して”というユーザの音声を収集すると、第２サーバ３００はディスプレイ装置１００のチャネルを１１番に変更するための制御命令と、“チャネルを１１番に変更しました”をテキスト形式で表示してディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、制御命令に基づいて出力部１１０を介して出力される放送チャネルを１１番に変更する。そして、制御部１５０は、“チャネルを１１番に変更しました”を音声に変換して出力１１０を介して出力するか、“チャネルを１１番に変更しました”というテキストが含まれるようにＵＩ画面を構成して、出力部１１０を介して出力するように制御することができる。

上述の例のように、制御部１５０は、ユーザの音声に対応する応答メッセージを出力したり、ユーザの音声に対応する機能を実行するように制御することができる。

一方、ディスプレイ装置１００で別途の機能を実行することなく、ユーザの音声に対応する応答メッセージを出力する場合は、ユーザの音声がディスプレイ装置１００で実行されることができない機能を実行させようとする場合を更に含んでよい。

例えば、ディスプレイ装置１００がテレビ電話機能をサポートしないテレビで実現された場合を仮定する。この場合、ディスプレイ装置１００で“ＸＸＸに電話をかけて”というユーザ音声を収集すると、第２サーバ３００はテレビ電話実行のための制御命令をディスプレイ装置１００に伝送することができる。しかし、ディスプレイ装置１００では、当該制御命令に対応する機能がサポートされていないということから、制御部１５０は、第２サーバ３００から受信された制御命令を認識することができなくなる。この場合、制御部１５０は、“サポートされていない機能です”という応答メッセージを、出力部１１０を介して、音声およびテキストのうち少なくとも一方の形態で出力することができる。

一方、上述の実施形態では、第２サーバ３００から伝送される応答メッセージ情報は、応答メッセージがテキスト形式で表示されたものとして説明したが、それは一例に過ぎない。すなわち、応答メッセージ情報は、ディスプレイ装置１００から出力される応答メッセージを構成する音声データそのものか、当該応答メッセージを構成する音声データの一部か、ディスプレイ装置１００に予め保存された音声またはテキストを用いて、当該応答メッセージを出力するための制御信号の形態であってよい。

それにより、制御部１５０は、応答メッセージ情報の形態を考慮し、応答メッセージを出力することができる。

具体的に、制御部１５０は、応答メッセージを構成する音声データそのものが受信されると、当該データを出力部１１０から出力可能な形態で処理して音声およびテキストのうち、少なくとも一方の形態で出力することができる。

一方、制御部１５０は、応答メッセージを出力するための制御信号が受信されると、ディスプレイ装置１００に予め保存されたデータのうち、制御信号にマッチするデータを検索し、検索された音声またはテキストデータを出力可能な形態で処理して、出力部１１０を介して出力することができる。そのために、ディスプレイ装置１００は、応答メッセージを提供するための音声またはテキストデータを保存していることができる。例えば、ディスプレイ装置１００は、“チャネル変更が完了しました”といった完全な文章形態のデータを保存していてよく、なお、“チャネルを・・番に変更しました”のような文章を構成する一部データを保存していてよい。この場合、当該文章を完成させるチャネル名は第２サーバ３００から受信されてよい。

図４は、図３に示すディスプレイ装置の細部構成を説明するためのブロック図である。図４に示すように、ディスプレイ装置１００は図３に示す構成要素の他に、インターフェース部１６０と、入力部１７０と、保存部１８０と、受信部１９０および信号処理部１９５を更に含んでよい。図４に示す構成要素のうち、図３に示す構成要素と重複する構成要素は、その機能が同一であるため、詳細な説明は省略する。

インターフェース部１６０は、外部機器（図１の４００）と通信を行う。具体的に、インターフェース部１６０は、ＨＤＭＩ（登録商標）やＵＳＢ等の各種の有線通信方式、ブルートゥース、Ｚｉｇｂｅｅ等の無線通信方式によって外部機器４００と通信を行うことができる。そのために、インターフェース部１６０は、各通信方式に対応するチップまたは入力ポート等を備えてよい。例えば、ＨＤＭＩ通信方式によって外部機器４００と通信を行う場合、インターフェース部１６０はＨＤＭＩポートを備えてよい。

一方、ディスプレイ装置１００は、第２サーバ３００から応答情報を受信して多様な動作を行うことについて、図３を参照して上述している。

この場合、応答情報は、外部機器４００の機能を制御するための制御命令を含んでよい。ここで、制御命令は外部機器４００で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部１５０は、第２サーバ３００から受信された制御命令をインターフェース部１６０を介して外部機器４００に伝送し、外部機器４００がユーザの音声に対応する機能を行うように制御することができる。

例えば、外部機器４００がＤＶＤプレーヤで実現された場合を仮定する。ディスプレイ装置１００が“ＤＶＤプレーヤの電源を入れて”というユーザの音声を収集すると、第２サーバ３００はＤＶＤプレーヤの電源をオンさせるための制御命令をディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、第２サーバ３００から受信された制御命令をＤＶＤプレーヤに伝送するように制御することができる。それにより、ＤＶＤプレーヤは、ディスプレイ装置１００から受信された制御命令に基づいて自分の電源をオンさせることができる。ただ、それは一例に過ぎず、外部機器４００はユーザ音声に応じて受信された制御命令に基づいて、多様な機能を行うことができることは言うまでもない。

一方、制御部１５０は、第２サーバ３００から受信された制御命令に基づいて外部機器４００を制御することができない場合、ユーザの音声に応じて外部機器４００を制御することができないことを示すメッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。ここで、制御命令に基づいて外部機器４００を制御することができない場合は、第２サーバ３００から受信された制御命令の対象となる機器がディスプレイ装置１００に接続されていない場合を含んでよい。

すなわち、制御部１５０は、インターフェース部１６０に接続された外部機器４００の種類を判断し、第２サーバ３００から受信された制御命令の対象となる機器がインターフェース部１６０に接続されていない場合、当該内容を示すメッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。

例えば、ディスプレイ装置１００に接続された外部機器４００がＤＶＤプレーヤで実現された場合を仮定する。この場合、ディスプレイ装置１００が“ゲーム機の電源を入れて”というユーザの音声を収集すると、第２サーバ３００はゲーム機の電源をオンさせるための制御命令をディスプレイ装置１００に伝送することができる。このとき、制御部１５０は、制御命令の対象となるゲーム機がインターフェース部１６０に接続されていない状態であるため、“ゲーム機の接続状態を確認して下さい”または“サポートされていない音声です”といったメッセージを音声およびテキストのうち、少なくとも一方の形態で出力してよい。

入力部１７０は、多様なユーザ操作を受信して制御部１５０に伝達するための入力手段として、入力パネルで実現されてよい。ここで、入力パネルは、タッチパッド（ＴｏｕｃｈＰａｄ）或いは各種機能キーや数字キー、特殊キー、文字キー等を備えたキーパッド（ＫｅｙＰａｄ）またはタッチスクリーン（ＴｏｕｃｈＳｃｒｅｅｎ）方式で行われてよい。更に、入力部１７０は、ディスプレイ装置１００を制御するためのリモコンから伝送されるリモコン信号を受信するためのＩＲ受信部（図示せず）で実現されてよい。

一方、入力部１７０は、ディスプレイ装置１００の機能を制御するための各種ユーザ操作を受信することができる。例えば、ディスプレイ装置１００がスマートテレビで実現される場合、電源オン／オフ、チャネル変更、音量変更等、スマートテレビの機能を制御するためのユーザ操作を受信することができる。この場合、制御部１５０は、入力部１７０を介して入力されたユーザ操作に対応する各種機能を実行するように別の構成要素を制御することができる。例えば、制御部１５０は、電源オフ命令が入力されると、ディスプレイ装置１００の各構成要素に供給される電源を遮断することができ、チャネル変更が入力されると、ユーザ操作に応じて選択されたチャネルを選局するように、受信部１８０を制御することができる。

特に、入力部１７０は、ユーザの音声を収集するための音声認識モードを開始するためのユーザ操作を入力される。例えば、入力部１７０は、ディスプレイ部とともにタッチスクリーン形態で実現され、音声認識モードを入力されるためのオブジェクト（仮に、アイコン）をディスプレイすることができる。一方、入力部１７０は、音声認識モードを入力されるための別途のボタンを備えることもできる。

音声認識モードを開始するためのユーザ操作が入力部１７０を介して入力されると、制御部１５０は音声収集部１２０を活性化して、ユーザの音声を収集することができる。そして、制御部１５０は、第１サーバ２００および第２サーバ３００との通信を通じて収集されたユーザ音声に対応する応答情報を受信し、応答メッセージを出力したり、特定機能を実行するように制御することができる。

保存部１８０は、ディスプレイ装置１００を動作させるために必要な各種プログラム等が保存される保存媒体として、メモリやＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で実現可能である。例えば、保存部１８０は、制御部１５０の動作実行のためのプログラムを保存するためのＲＯＭ、制御部１５０の動作実行によるデータを一時的に保存するためのＲＡＭ等を備えてよい。なお、各種参照データを保存するためのＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）等を更に備えてよい。

特に、保存部１８０は、ユーザの音声に対応する各種応答メッセージを音声またはテキストデータで予め保存していてよい。それにより、制御部１５０は、第２サーバ３００から受信される音声メッセージ情報（特に、制御信号）に対応する音声またはテキストデータを保存部１８０から読み取ってオーディオ出力部１１２またはディスプレイ部１１１に出力することができる。この場合、制御部１５０は、音声データに対してデコーディング等の信号処理を行い、デコーディングされた音声データを増幅してオーディオ出力部１１２を介して出力することができ、テキストデータを構成するテキストが含まれるようにＵＩ画面を構成してディスプレイ部１１１を介して出力することができる。上述の実施形態では、制御部１５０が保存部１８０から読み取られた音声およびテキストデータに対する信号処理を行うものとして説明したが、制御部１５０は、音声およびテキストデータに対する信号処理を行うように、信号処理部１９５を制御することもできる。

受信部１９０は、多様なコンテンツを受信する。具体的に、受信部１９０は、放送ネットワークを用いて放送番組コンテンツを伝送する放送局またはインターネットを用いてコンテンツファイルを伝送するウェブサーバからコンテンツを受信する。なお、ディスプレイ装置１００内に設けられたり、ディスプレイ装置１００に接続された各種記録媒体再生装置からコンテンツを受信することもできる。記録媒体再生装置とは、ＣＤやＤＶＤ、ハードディスク、ブルーレイディスク、メモリカード、ＵＳＢメモリ等のような多様な記録媒体に保存されたコンテンツを再生する装置を意味する。

放送局からコンテンツを受信する実施形態の場合には、受信部１９０は、チューナ（図示せず）、復調器（図示せず）、等化器（図示せず）等のような構成を含む形態で実現されてよい。一方、ウェブサーバのようなソースからコンテンツを受信する実施形態の場合には、受信部１９０は、ネットワークインターフェースカード（図示せず）で実現されてよい。または、上述の各種記録媒体再生装置からコンテンツを受信する実施形態の場合には、受信部１９０は、記録媒体再生装置と接続されたインターフェース部（図示せず）で実現されてよい。このように、受信部１９０は、実施形態に応じて多様な形態で実現されてよい。

信号処理部１９５は、受信部１９０を介して受信されたコンテンツが出力部１１０を介して出力できるようにコンテンツに対する信号処理を行う。

具体的に、信号処理部１９５は、コンテンツに含まれたビデオ信号に対してデコーディング、スケーリングおよびフレームレート変換等の動作を行い、ディスプレイ部１１１から出力可能な形態でビデオ信号を変換することができる。なお、信号処理部１９５は、コンテンツに含まれたオーディオ信号に対してデコーディング等の信号処理を行ってオーディオ出力部１１２から出力可能な形態でオーディオ信号を変換することができる。

図５は、図１に示す第１サーバの構成を説明するためのブロック図である。図５に示すように、第１サーバ２００は、通信部２１０および制御部２２０を含む。

通信部２１０は、ディスプレイ装置１００と通信を行う。具体的に、通信部２１０は、ディスプレイ装置１００からユーザの音声を受信し、ユーザの音声に対応するテキスト情報をディスプレイ装置１００に伝送することができる。そのために、通信部２１０は、多様な通信モジュールを含んでよい。

制御部２２０は、第１サーバ２００の動作全般を制御する。特に、制御部２２０は、ディスプレイ装置１００からユーザの音声が受信されると、ユーザの音声に対応するテキスト情報を生成し、それをディスプレイ装置１００に伝送するように通信部２１０を制御する。

具体的に、制御部２２０は、ＳＴＴ（ＳｐｅｅｃｈＴｏＴｅｘｔ）エンジンを用いて、ユーザの音声に対応するテキスト情報を生成することができる。ここで、ＳＴＴエンジンとは、音声信号をテキストに変換するためのモジュールとして、従来開示されている多様なＳＴＴアルゴリズムを用いて音声信号をテキストに変換することができる。

例えば、制御部２２０は、受信されたユーザの音声内でユーザが発話した音声の開始と終了とを検出して音声区間を判断する。具体的に、制御部２２０は、受信された音声信号のエネルギーを計算し、計算されたエネルギーに応じて音声信号のエネルギーレベルを分類して、動的プログラミングを通じて音声区間を検出することができる。そして、制御部２２０は、検出された音声区間内において、音響モデル（ＡｃｏｕｓｔｉｃＭｏｄｅｌ）に基づいて、音声の最小単位である音素を検出して音素データを生成し、生成された音素データにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）確率モデルを適用して、ユーザの音声をテキストに変換することができる。

図６は、図１に示す第２サーバの構成を説明するためのブロック図である。図６に示すように、第２サーバ３００は、通信部３１０と、保存部３２０および制御部３３０を含む。

通信部３１０は、ディスプレイ装置１００と通信を行う。具体的に、通信部３１０は、ディスプレイ装置１００からテキスト情報を受信し、テキスト情報に対応する応答情報をディスプレイ装置１００に伝送することができる。そのために、通信部３１０は、多様な通信モジュールを含んでよい。

保存部３２０は、ディスプレイ装置１００から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存する。

具体的に、保存部３２０は、サービスドメイン別の対話パターンを保存する。ここで、サービスドメインは、ユーザが発話した音声が属するテーマに応じて、“放送”、“ＶＯＤ”、“アプリ管理”、“機器制御”、“情報（天気や株式、ニュース等）提供”等で区分されてよい。しかし、それは一例に過ぎず、その他にも、多様なテーマに応じてサービスドメインを区分することができることはいうまでもない。

より具体的に、保存部３２０は、各サービスドメイン別のコーパス（ｃｏｒｐｕｓ）データベースを備えてよい。ここで、コーパスデータベースとは、例文およびそれに対する回答を保存する形態で実現されてよい。

すなわち、保存部３２０は、各サービスドメイン別に複数の例文および各例文に対する回答を保存することができる。なお、保存部３２０は、例文を解釈するための情報および例文に対応する回答を各例文ごとにタグ付け（Ｔａｇｇｉｎｇ）して保存することができる。

例えば、放送サービスドメイン内に“○○○（放送番組名）は何時から？”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“○○○（放送番組名）は何時から？”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○○○（放送番組名）は何時から？”のような例文において、“○○○（放送番組名）”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から？”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜は何時から？”という形式を有する例文の冒頭には放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、放送番組名、出演者、演出者等が含まれてよい。

なお、保存部３２０は、“○○○（放送番組名）は何時から？”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○○○（放送番組名）は何時から？”に対する回答として、“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”をタグ付けして保存することができる。

別の例として、放送サービスドメイン内に“○番（チャネル番号）に変えて”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“○番（チャネル番号）に変えて”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○番（チャネル番号）に変えて”のような例文において、“○番（チャネル番号）”はチャネル番号を示し、“変え”とはチャネル選局命令を示し、“て”とは例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜に変えて”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。

なお、保存部３２０は、“○番（チャネル番号）に変えて”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○番（チャネル番号）に変えて”に対する回答として、“＜チャネル番号＞にチャネルを変更しました”をタグ付けして保存することができる。

更に別の例として、機器制御ドメイン内に、“○○（機器名称）の電源を切って”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“○○（機器名称）の電源を切って”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○○（機器名称）の電源を切って”のような例文において、“○○（機器名称）”は機器名称を示し、“電源”、“切っ”とは電源オフ命令を示し、“て”とは当該例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜の電源を切って”という形式を有する例文の冒頭には、機器に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、機器に関連する単語は、機器名称、製造元等を含んでよい。

なお、保存部３２０は、“○○（機器名称）の電源を切って”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○○（機器名称）の電源を切って”に対する回答として、“＜機器名称＞の電源をオフにしました”をタグ付けして保存することができる。

なお、保存部３２０は、各例文にディスプレイ装置１００または外部機器４００を制御するための制御命令をタグ付けして保存することができる。特に、保存部３２０は、ディスプレイ装置１００または外部機器４００を制御するためのユーザの音声に対応する例文にディスプレイ装置１００または外部機器４００を制御するための制御命令をタグ付けして保存することができる。

例えば、保存部３２０は、“○番（チャネル番号）に変えて”といった例文にディスプレイ装置１００のチャネルを○番に変更するための制御命令をタグ付けして保存することができる。別の例として、保存部３２０は、“○○（機器名称）の電源を切って”といった例文に機器名称を有する外部機器４００の電源をオフさせるための制御命令をタグ付けして保存することができる。

一方、保存部３２０は、保存される例文およびそれに対する回答について説明してきた。しかし、それは一例に過ぎず、サービスドメイン別に多様な例文およびそれに対する回答が保存できることは言うまでもない。

制御部３３０は、第２サーバ３００の動作全般を制御する。特に、ディスプレイ装置１００からユーザの音声に対応するテキスト情報が受信されると、制御部３３０は、受信されたテキスト情報に対応する応答情報を生成し、生成された応答情報を通信部３１０を介してディスプレイ装置１００に伝送するように制御することができる。具体的に、制御部３３０は、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置１００に伝送するように通信部３１０を制御することができる。

そのために、制御部３３０は、受信されたテキスト情報にマッチする対話パターンが存在するコーパスデータベースを検出し、ユーザの音声が属するサービスドメインを判断することができる。

具体的に、制御部３３０は、受信されたテキスト情報を各サービスドメイン別に保存された例文と比較し、受信されたテキスト情報にマッチする例文が属するサービスドメインをユーザの音声が属するサービスドメインとして判断することができる。

例えば、制御部３２０は、ディスプレイ装置１００から“○○○（放送番組名）は何時から？”または“○番（チャネル番号）に変えて”というテキストが受信されると、ディスプレイ装置１００で収集したユーザの音声が放送サービスドメインに属すると判断することができ、ディスプレイ装置１００から“○○（機器名称）の電源を切って”というテキストが受信されると、ディスプレイ装置１００から収集したユーザの音声が機器制御ドメインに属すると判断することができる。

一方、制御部３３０は、受信されたテキスト情報にマッチする例文が存在しない場合、統計的にユーザの音声が属するドメインを判断することができる。

例えば、ディスプレイ装置１００が“○番（チャネル番号）に変えて”を収集し、収集されたユーザの音声に対するテキストを第２サーバ３００に伝送した場合を仮定する。この場合、制御部３３０は、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ＣＲＦ（ＣｏｎｄｉｔｉｏｎＲａｎｄｏｍＦｉｅｌｄｓ）、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）等の分類モデルを使用してユーザの音声が“○番（チャネル番号）に変えて”と統計的に類似すると判断し、“○番（チャネル番号）に変えて”は放送サービスドメインに属すると判断することができる。

そして、制御部３３０は、予め保存された例文と統計的に類似すると判断されたテキスト情報を保存することもできる。この場合、制御部３３０は、テキスト情報を統計的に類似する例文が属するサービスドメインの更に別の例文で保存することができる。

この場合、制御部３３０は、予め保存された例文を参照して、新たに保存される例文を解釈するための情報およびそれに対応する回答を新たに保存される例文にタグ付けして保存することができる。

例えば、“○番（チャネル番号）に変えて下さい”を新たな例文として保存する場合を仮定する。

この場合、制御部３３０は、“○番（チャネル番号）に変えて”を参照して“○番（チャネル番号）に変えて下さい”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、制御部３３０は、“○番（チャネル番号）に変えて下さい”のような例文において、“○番（チャネル番号）”はチャネル番号を示し、“変えて”とはチャネル選局命令を示し、“下さい”とは例文のタイプは要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜に変えて下さい”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。

なお、保存部３２０は、“○番（チャネル番号）に変えて下さい”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○番（チャネル番号）に変えて下さい”に対する回答として、“＜チャネル番号＞にチャネルを変更しました”をタグ付けして保存することができる。

なお、制御部３３０は、ディスプレイ装置１００から受信されたテキスト情報にマッチする例文が複数個存在し、これらが互いに異なるサービスドメインに属する場合、統計的に分析してユーザの音声の属するサービスドメインとして判断することができる。

具体的に、制御部３３０は、ディスプレイ装置１００から受信されたテキスト情報を構成する単語（または、形態素）が各サービスドメイン内に存在する頻度数に基づいて各単語（または、形態素）に加重値を与えて、与えられた加重値を考慮してユーザの音声の属するサービスドメインとして判断することができる。

例えば、“○○○（放送番組名）に変えて”という例文が放送サービスドメインおよびＶＯＤサービスドメインに各々保存された状態で、“○○○（放送番組名）に変えて”のようなテキストがディスプレイ装置１００から受信された場合を仮定する。

この場合、制御部３３０は、“○○○（放送番組名）に変えて”にマッチする例文が放送サービスドメインおよびＶＯＤサービスドメインに存在すると判断し、“○○○（放送番組名）に変えて”を構成する単語（または、形態素）である“変え”および“て”が、各サービスドメイン内に存在する頻度数に基づいて各サービスドメイン別に“変え”および“て”に加重値を与えることができる。

例えば、制御部３３０は、放送サービスドメイン内に保存された全例文の中から、“変え”を含む例文の占める割合を放送サービスドメインから“変え”の加重値として算出し、放送サービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合を放送サービスドメインから“て”の加重値を算出することができる。

このような方法で、制御部３３０は、ＶＯＤサービスドメイン内に保存された全例文の中から、“変え”を含む例文の占める割合をＶＯＤサービスドメインから“変え”の加重値として算出し、ＶＯＤサービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合をＶＯＤサービスドメインから“て”の加重値を算出することができる。

その後、制御部３３０は、各単語に対して与えられた加重値を演算してユーザの音声の属するサービスドメインを判断することができる。上述の例において、制御部３３０は、放送サービスドメイン内において、“変え”と“て”の各々に与えられた加重値を互いに掛け算した結果と、ＶＯＤサービスドメイン内において、“変え”と“て”の各々に与えられた加重値を互いに掛け算した結果とを比較し、結果値の大きいサービスドメインにユーザの音声が属すると判断することができる。

すなわち、制御部３３０は、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値が、ＶＯＤサービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○（放送番組名）に変えて”は、放送サービスドメインに属すると判断することができる。逆に、制御部３３０は、ＶＯＤサービスドメイン内において与えられた加重値に基づいて算出された結果値が、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○（放送番組名）に変えて”は、ＶＯＤサービスドメインに属すると判断することができる。

しかし、それは一例に過ぎず、制御部３３０は、多様な方式を通じて統計的にユーザの音声の属するサービスドメインを判断することができる。

その後、制御部３３０は、ユーザの音声の属するサービスドメインに基づいて、ユーザの音声から対話作用（ｄｉａｌｏｇｕｅａｃｔ）、主作用（ｍａｉｎａｃｔｉｏｎ）および構成要素（ｃｏｍｐｏｎｅｎｔｓｌｏｔ）（または、個体名）を抽出する。

ここで、対話作用は、文章の形態に関連する分類基準として、当該文章が叙述部（Ｓｔａｔｅｍｅｎｔ）、要求文（Ｒｅｑｕｅｓｔ）または疑問文（Ｑｕｅｓｔｉｏｎ）であるかを示すものである。

主作用は、当該発話が特定ドメインで対話を通じて所望の行為を示す意味的情報である。例えば、放送サービスドメインで、主作用はテレビ電源オン／オフ、放送番組検索、放送番組時間検索、放送番組予約等を含んでよい。別の例として、機器制御ドメインで、主作用は機器電源オン／オフ、再生、一時停止等を含んでよい。

構成要素は、発話に示される特定ドメインに対する個体情報、すなわち、特定ドメインで意図する行動の意味を具体化するために与えられる情報である。例えば、放送サービスドメインにおいて、構成要素はジャンル、放送番組名、放送時間、チャネル名、俳優の名前等を含んでよく、機器制御サービスドメインにおいて構成要素は、外部機器名称、製造元等を含んでよい。

そして、制御部３３０は、抽出された対話作用、主作用および構成要素を用いてユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。

ここで、応答情報は、ディスプレイ装置１００から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置１００から出力される応答メッセージがテキスト形式で表現されたものとして、ディスプレイ装置１００は第２サーバ３００から受信された応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを出力することができる。

そのために、制御部３３０は、判断された発話意図に対する回答を保存部３２０から抽出し、抽出された回答をテキストに変換して応答メッセージ情報を生成することができる。

なお、応答情報はユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令はユーザの音声に対応する機能を行うようにディスプレイ装置１００を制御するための制御命令またはユーザの音声に対応する機能を行うように、外部機器４００を制御するための制御命令を含んでよい。

そのために、制御部３３０は判断された発話意図に対応する制御命令を保存部３２０から抽出してディスプレイ装置１００に伝送するように制御することができる。

以下では、制御部３３０がユーザの音声に対応する応答情報を生成するより具体的な方法を例えて説明する。

まず、制御部３３０は、ユーザの音声とマッチする例文またはユーザの音声と統計的に類似すると判断された例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用および構成要素を抽出し、ユーザの音声に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。

例えば、ディスプレイ装置１００からテキスト“○○○（放送番組名）は何時から？”が受信された場合を仮定する。

この場合、制御部３３０は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○○○（放送番組名）は何時から？”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”には例文を解釈するための情報として、“○○○（放送番組名）”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から？”は例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部３３０は、これらの情報を参照してディスプレイ装置１００から受信されたテキスト“○○○（放送番組名）は何時から？”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は○○○（放送番組名）であると判断することができる。それにより、制御部３３０は、ユーザの音声に含まれた発話意図は“○○○”に対する“放送時間”を“問い合わせる”ものと判断することができる。

なお、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答を保存部３２０から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。

すなわち、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答である“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”をユーザの音声に対応する回答として検索する。

この場合、制御部３３０は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。

例えば、制御部３３０は、“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”のような回答で、ブランク＜放送番組名＞は放送番組名である“○○○（放送番組名）”を載せることができる。そして、制御部３３０は、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）情報を通じて“○○○（放送番組名）”の放送時間を検索し、検索された放送時間を別のブランクである＜放送時間＞に載せることができる。それにより、制御部３３０は、“お問い合わせの○○○の放送時間は土曜日の７時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された応答メッセージ情報に基づいて、“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

別の例として、ディスプレイ装置１００からテキスト“○番（チャネル番号）に変えて”が受信された場合を仮定する。

この場合、制御部３３０は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○番（チャネル番号）に変えて”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、放送サービスドメインに保存された例文である“○番（チャネル番号）に変えて”には例文を解釈するための情報として、“○（チャネル番号）”はチャネル番号を示し、“変え”は放送選局命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部３３０は、これらの情報を参照してディスプレイ装置１００から受信されたテキスト“○番（チャネル番号）に変えて”の対話作用は要求文であり、主作用は放送選局命令であり、構成要素は○番（チャネル番号）であると判断することができる。それにより、制御部３３０は、ユーザの音声に含まれた発話意図は“○番”に対する“放送選局”を“要求する”ものと判断することができる。

なお、制御部３３０は、放送サービスドメインに保存された例文である“○番（チャネル番号）に変えて”にタグ付けされた回答を保存部３２０から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。

すなわち、制御部３３０は、放送サービスドメインに保存された例文である“○番（チャネル番号）に変えて”にタグ付けされた回答である“＜チャネル番号＞にチャネルを変更しました”をユーザの音声に対応する回答として検索する。

例えば、制御部３３０は、“＜チャネル番号＞にチャネルを変更しました”のような回答で、ブランク＜チャネル番号＞はチャネル番号である“○番（チャネル番号）”を載せることができる。それにより、制御部３３０は、“○番にチャネルを変更しました”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

なお、制御部３３０は、放送サービスドメインに保存された例文である“○番（チャネル番号）に変えて”にタグ付けされた制御命令を保存部３２０から検索し、タグ付けされた制御命令をディスプレイ装置１００に伝送するように制御することができる。すなわち、制御部３３０は、放送サービスドメインに保存された例文である“○番（チャネル番号）に変えて”にタグ付けされたディスプレイ装置１００のチャネルを○番に変更するための制御命令をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された制御命令に基づいて、○番にチャネルを変更し、第２サーバ３００から受信された応答メッセージ情報に基づいて、“○番にチャネルを変更しました”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

別の例として、ディスプレイ装置１００からテキスト“○○（機器名称）の電源を切って”が受信された例を仮定する。

この場合、制御部３３０は、受信されたテキストが機器制御ドメインに属すると判断し、機器制御ドメイン内で受信されたテキストとマッチする例文である“○○（機器名称）の電源を切って”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、機器制御ドメインに保存された例文である“○○（機器名称）の電源を切って”には例文を解釈するための情報として、“○○（機器名称）”は機器名称を示し、“電源”、“切っ”は電源オフ命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部３３０は、これらの情報を参照してディスプレイ装置１００から受信されたテキスト“○○（機器名称）の電源を切って”の対話作用は要求文であり、主作用は電源オフ命令であり、構成要素は○○（機器名称）であると判断することができる。それにより、制御部３３０は、ユーザの音声に含まれた発話意図は“○○（機器名称）”に対する“電源オフ”を“要求する”ものと判断することができる。

なお、制御部３３０は、機器制御ドメインに保存された例文である“○○（機器名称）の電源を切って”にタグ付けされた回答を保存部３２０から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。

すなわち、制御部３３０は、機器制御ドメインに保存された例文である“○○（機器名称）の電源を切って”にタグ付けされた回答である“＜機器名称＞の電源をオフにしました”をユーザの音声に対応する回答として検索する。

例えば、制御部３３０は、“＜機器名称＞の電源をオフにしました”のような回答で、ブランク＜機器名称＞に“○○（機器名称）”を載せることができる。それにより、制御部３３０は、“＜機器名称＞の電源をオフにしました”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

なお、制御部３３０は、機器制御ドメインに保存された例文である“○○（機器名称）の電源を切って”にタグ付けされた制御命令を保存部３２０から検索し、タグ付けされた制御命令をディスプレイ装置１００に伝送するように制御することができる。すなわち、制御部３３０は、機器制御メインに保存された例文である“○○（機器名称）の電源を切って”にタグ付けされた○○（機器名称）の電源をオフさせるための制御命令をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された制御命令に基づいて、○○（機器名称）を有する外部機器４００の電源をオフさせ、第２サーバ３００から受信された応答メッセージ情報に基づいて、“○○（機器名称）の電源をオフにしました”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

一方、制御部３３０は、ユーザの音声と統計的に類似するものとして、例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

例えば、ディスプレイ装置１００からテキスト“△△△（放送番組名）は何時から？”が受信された場合を仮定する。

この場合、制御部３３０は、テキスト“△△△（放送番組名）は何時から？”は、放送サービスドメイン内に保存された例文である“○○○（放送番組名）は何時から？”と統計的に類似すると判断することができる。それにより、制御部３３０は、放送サービスドメイン内に保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”には例文を解釈するための情報として、“〜は何時から？”の前の部分には、放送番組に関連する単語が配置されるという情報がタグ付けされている。よって、制御部３３０は、放送番組に関連する単語である放送番組名、出演者、演出者等のうち、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索する。

そのために、保存部３２０は、各サービスドメイン別に構成要素に対する情報を保存する個体名辞書またはＴＩＭＥＸ辞書等を含んでよい。

すなわち、制御部３３０は、個体名辞書またはＴＩＭＥＸ辞書等を参照して、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索し、“△△△（放送番組名）”が放送番組名を表す単語であると判断することができる。

ただ、それは一例に過ぎず、制御部３３０は、ＥＰＧ情報等を用いて、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索することもでき、予め保存された例文とＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ）を用いて、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索することもできる。

それにより、制御部３３０は、ディスプレイ装置１００から受信されたテキスト“△△△（放送番組名）は何時から？”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は△△△（放送番組名）であると判断することができる。そして、制御部３３０は、ユーザの音声に含まれた発話意図は、“△△△”に対する“放送時間”を“問い合わせる”ことと判断することができる。

なお、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答を用いて、“△△△（放送番組名）は何時から？”に対する応答メッセージ情報を生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

すなわち、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答である“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”をユーザの音声に対応する回答として検索する。そして、制御部３３０は、“お問い合わせの△△△（放送番組名）の放送時間は水曜日の１１時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

一方、制御部３３０は、ディスプレイ装置１００で応答メッセージの一部の文章データを保存している場合、当該文章を完成させるための一部のテキストのみをディスプレイ装置１００に伝送するように制御することができる。

例えば、ディスプレイ装置１００に“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”のような回答が予め保存されている場合、制御部３３０は、ディスプレイ装置１００に保存された回答を完全な形の文章で構成するために、ユーザが問い合わせる放送番組名およびその放送時間をテキスト形態のディスプレイ装置１００に伝送するように制御することができる。この場合、制御部３３０は、ディスプレイ装置１００に予め保存された回答を出力するための別途の制御信号をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信されたテキストを予め保存された回答に載せて“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”を応答メッセージとして出力することができる。

一方、上述の実施形態において、制御部３３０は例文にタグ付けされた情報を用いて対話作用、主作用および構成要素を抽出するものとして説明してきたが、それは一例に過ぎない。すなわち、制御部３３０は、ユーザの音声からＭａｘＥｎｔ（ＭａｘｉｍｕｍＥｎｔｒｏｐｙＣｌａｓｓｆｉｅｒ）を用いて対話作用、主作用を抽出し、ＣＲＦ（ＣｏｎｄｉｔｉｏｎＲａｎｄｏｍＦｉｅｌｄｓ）を用いて構成要素を抽出することもできる。

しかし、これらの実施形態に限定されるわけではなく、制御部３３０は既に公知となった多様な方式を通じてユーザの音声から対話作用、主作用および構成要素を抽出することもできる。

一方、制御部３３０は、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声を参照して、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。すなわち、制御部３３０は、現在受信されたユーザの音声をコーパスデータベースに保存された対話パターンと比較して、現在受信されたユーザの音声が対話パターンで、最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照して現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。

例えば、“○○○（放送番組名）は何時から？”というユーザの音声が入力された後、“何時から？”というユーザの音声が入力された場合を仮定する。この場合、制御部３３０は、“何時から？”というユーザの音声が放送サービスドメイン内で最初のユーザ発話に該当しないと判断されると、以前に受信された“○○○（放送番組名）は何時から？”というユーザ音声に基づいて、“何時から？”の発話意図を判断することができる。すなわち、制御部３３０は、構成要素を抽出することができない“何時から？”というユーザ音声の発話意図を判断するために、以前に受信されたユーザ音声に含まれた“○○○（放送番組名）”を用いて“何時から？”の発話意図を“○○○”に対する“番組の開始時間”を“問い合わせる”ことと判断することができる。

一方、図１ないし図４において、ディスプレイ装置１００は、第２サーバ３００から受信された応答情報に応じてユーザの音声に対応する応答メッセージを出力したり、特定機能を行うものとして説明したが、それは一例に過ぎない。ディスプレイ装置１００は、第１サーバ２００から受信されたテキスト情報を用いて、ユーザの音声に対応する応答メッセージを出力したり特定機能を行うこともできる。

以下では、図４を参照して、より具体的に説明する。

保存部１８０は、第１サーバ２００から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存することができる。すなわち、第２サーバ３００の保存部３２０のように、保存部１８０は各サービスドメイン別に複数の例文および各例文に対する回答を保存することができる。このとき、保存部１４０は、例文を解釈するための情報および例文に対応する回答、制御命令をタグ付けして保存することができる。

制御部１５０は、保存部１８０に保存された例文および例文にタグ付けされた情報を用いてユーザの音声に対応する応答情報を生成し、生成された応答情報に基づいてユーザの音声に対応する応答メッセージを出力したり、ユーザの音声に応じてディスプレイ装置１００または外部機器４００の機能を行うように制御することができる。この場合、制御部１５０は、第２サーバ３００に対する説明部分で説明した方法と同様の方法を用いることができる。

図７は、本発明の別の実施形態に係る対話型システムを説明するための図である。図７に示すように、対話型システム１０００’は、ディスプレイ装置１００と、第１サーバ２００と、第２サーバ３００と、外部機器４００および外部サーバ５００を含む。図７の対話型システムは、別途の外部サーバ５００を更に具備することにおいてのみ、図１の対話型システムと相違しているため、図１ないし図６と重複する内容に対する具体的な説明は省略する。ただ、第２サーバ３００の動作に対しては、図６に示すブロック図を参照して説明する。

第２サーバ３００は、ディスプレイ装置１００から受信されたテキスト情報に基づいてユーザの音声に対する発話意図を判断し、判断された発話意図による応答情報を生成してディスプレイ装置１００に伝送する。この場合、第２サーバ３００は、外部サーバ５００から受信された検索情報を用いて応答情報を生成することができる。

ここで、応答情報を生成することができない場合は、検索された回答に含まれたブランクを完成することができない場合を含んでよい。

この場合、第２サーバ３００は、ディスプレイ装置１００から受信されたテキスト情報そのものを外部サーバ５００に伝送してテキスト情報に対応する検索情報を外部サーバ５００から受信し、検索情報に基づいて応答情報を生成することができる。

なお、第２サーバ３００は、ディスプレイ装置１００から受信されたテキスト情報から一定のキーワードを抽出し、外部サーバ５００に伝送することもできる。例えば、“ソウルの気温はどう？”というテキストからキーワードは“ソウル”、“気温”であってよく、第２サーバ３００は、サービスドメイン別に一定のキーワードを保存していてよい。

外部サーバ５００は、第２サーバ３００から受信されたテキスト情報またはテキスト情報から抽出されたキーワードに基づいて、検索情報を生成し、それを第２サーバ３００に伝送する。具体的に、外部サーバ５００は、多様な情報を保存するウェブサーバで実現され、テキスト情報またはテキスト情報から抽出されたキーワードに対するウェブ検索を行い、検索された結果を第２サーバ３００に伝送することができる。

それにより、第２サーバ３００は、外部サーバ５００から受信された検索結果を用いて検索された回答に含まれたブランクを完成して応答情報を生成し、生成された応答情報をディスプレイ装置１００に伝送することができる。

例えば、ディスプレイ装置１００から“○○（地域名称）の天気はどう？”というテキストを受信すると、制御部３３０は、ユーザの音声に含まれた発話意図は“○○（地域名称）”に対する“天気”を“問い合わせる”ものと判断し、“お問い合わせの＜地域名称＞の天気は＜天気情報＞です”を回答として検索することができる。

この場合、制御部３３０は、検索された回答で、ブランク＜地域名称＞は地域名称である“○○（地域名称）”を載せることができる。ただ、別のブラック＜天気情報＞を完成するために、制御部３３０は、受信されたテキスト情報またはテキスト情報から抽出されたキーワードを外部サーバ５００に伝送することができる。ここで、キーワードは、“○○（地域名称）”および“天気”であってよい。それにより、外部サーバ５００は、○○（地域名称）に対する天気情報を検索することができる。

ここで、制御部３３０は、外部サーバ５００から検索結果が受信されると、受信された検索結果を用いてユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。上述の例において、外部サーバ５００から検索結果として、○○（地域名称）に対する天気が２５℃であることが受信されると、制御部３３０は、“お問い合わせの○○（地域情報）の天気は２５℃です”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された応答メッセージ情報に基づいて、“お問い合わせの○○（地域名状）の天気は２５℃です”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

図８は、図７に示す対話型システムの各動作を説明するためのタイミング図である。一方、第２サーバ３００の具体的な構成は、図６に示すものと同様であるため、第２サーバ３００の動作に対しては、図６に示すブロック図を参照して説明する。なお、図８において、ステップＳ５１０ないしＳ５１４は、図２のＳ１０ないしＳ５０と同様であることから、繰り返し説明は省略する。

第２サーバ３００は、ディスプレイ装置１００から受信されたテキスト情報に基づいて、ユーザの音声に対する発話意図を判断し、判断された発話意図による応答情報を生成することができるか否かを判断する（Ｓ５１５）。

具体的に、制御部３３０は、ディスプレイ装置１００から受信されたテキスト情報に基づいて、ユーザの音声の属するサービスドメインを判断し、サービスドメインに基づいてユーザの音声に対応する発話意図を判断する。そして、制御部３３０は、判断された発話意図に対応する回答を保存部３１０に具備されたコーパスデータベースから抽出する。それに対しては、図１ないし図６とともに上述している。

この後、制御部３３０は、抽出された回答を用いて応答メッセージ情報を生成する。

この場合、抽出された回答が完成した文章形態ではなく、予め保存された情報を用いて抽出された回答を完成させることができないと、制御部３３０は発話意図による応答情報を生成することができないと判断する。

例えば、収集された“○○○（放送番組名）は何時から？”というユーザの音声に対する発話意図が“○○○”に対して“番組の開始時間”を“問い合わせる”ものとして判断し、それによる回答として“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”が抽出された場合を仮定する。この場合、制御部３３０は、ＥＰＧ情報を用いて“お問い合わせ○○○（放送番組名）の放送時間は土曜日の７時からです”という応答メッセージ情報を生成する。

別の例として、収集された“○○（地域名称）の天気はどう？”というユーザの音声に対する発話意図が“○○（地域名称）”に対する“天気”を“問い合わせる”ものとして判断され、それによる回答として“お問い合わせの＜地域名称＞の天気は＜天気情報＞です”が抽出された場合を仮定する。この場合、第２サーバ３００には、○○（地域名称）に対する天気情報が予め保存されていないため、予め保存されている情報を用いて抽出された回答を完成させることができない。このように、予め保存された情報を用いて完成した文章形態の応答メッセージ情報を生成することができない場合、制御部３３０は発話意図による応答情報を生成することができないと判断する。

この場合、第２サーバ３００は、ディスプレイ装置１００から受信されたテキスト情報を外部サーバ５００に伝送する。そのために、通信部３１０は、外部サーバ５００と通信を行うことができる。

具体的に、制御部３３０は、発話意図による応答情報を生成することができない場合、すなわち、予め保存された情報を用いて抽出された回答を完成させることができない場合、ディスプレイ装置１００から受信されたテキスト情報を外部サーバ５００に伝送するように通信部３１０を制御する。すなわち、上述の例において、制御部３３０は“○○（地域名称）の天気はどう？”というテキスト情報を外部サーバ５００に伝送するように制御する。

なお、制御部３３０は、ディスプレイ装置１００から受信されたテキスト情報からキーワードを抽出し、通信部３１０を通じて抽出されたキーワードを外部サーバ４００に伝送することもできる。

そのために、保存部３２０は、テキスト情報から抽出される各種キーワードに対する情報を保存することができる。具体的に、保存部３２０は、サービスドメイン別に予め定義されたキーワードを保存することができる。例えば、情報提供サービスドメインに対しては、地域名称、気温、雨、雪、確率等のような天気関連のキーワードをマッチさせて保存し、放送サービスドメインに対しては、番組名、主演俳優、シンガー、曲名等のような放送関連のキーワードをマッチさせて保存することができる。

例えば、“○○（地域名称）の天気はどう？”というユーザの音声は情報提供サービスドメインに属するため、制御部３３０は、テキスト情報から“ソウル”、“天気”のようなキーワードを検出し、外部サーバ５００に伝送するように制御することができる。

外部サーバ５００は、検索情報を生成し（Ｓ５１７）、生成された検索情報を第２サーバ３００に伝送する。具体的に、外部サーバ５００はウェブサーバで実現され、第２サーバ３００から受信されたテキスト情報またはキーワードに対するウェブ検索を行い、ウェブ検索結果を検索情報として生成することができる。

上述の例のように、外部サーバ５００は“○○（地域名称）の天気はどう？”というテキストまたは“○○（地域名称）”、“天気”のようなキーワードが第２サーバ３００から受信されると、当該情報を用いてウェブ検索を行い、それによって検索された○○（地域名称）の天気に対する情報を第２サーバ３００に伝送することができる。

一方、第２サーバ３００は、外部サーバ５００から検索情報が受信されると、応答情報を生成し（Ｓ５１９）、生成された応答情報をディスプレイ装置１００に伝送することができる。

具体的に、制御部３３０は、検索情報を用いてユーザの音声に対応する応答情報を生成することができる。すなわち、制御部３３０は、検索情報を用いて抽出された回答を完全な形に再構成して応答メッセージ情報を生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

すなわち、上述の例において、外部サーバ４００から○○（地域名称）の天気が２５℃である検索情報が受信されると、制御部３３０は検索情報に基づいて“お問い合わせの○○（地域名称）の天気は２５℃です”という応答メッセージ情報を生成してディスプレイ装置１００に伝送するように制御することができる。

一方、ディスプレイ装置１００は、第２サーバ３００から受信された応答情報に基づいてユーザ音声に対応する動作を行う。上述の例において、ディスプレイ装置１００は第２サーバ３００から受信される応答メッセージ情報に基づいて、“お問い合わせの○○（地域名称）の天気は２３℃です”という応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力することができる。それについては、図１ないし図６を参照して説明している。

一方、図１ないし図８において、第１サーバ２００と第２サーバ３００とを含む一つのサーバを対話型サーバと称してよい。ただ、図１ないし図８においては、第１サーバ２００と第２サーバ３００とが別途に実現されるものとして説明したが、それは一例に過ぎない。すなわち、第１サーバ２００と第２サーバ３００とは、一つのサーバで実現されてよく、この場合、第１サーバ２００と第２サーバ３００とが一つのサーバで実現されたものを対話型サーバと称してよい。

この場合、ディスプレイ装置１００は、ユーザの音声に対応するテキスト情報を受信せず、一つで実現されたサーバ（図示せず）においてユーザの音声をテキストに変換し、変換されたテキストに基づいてユーザの音声に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。

図９ないし図１１は、本発明の一実施形態に係る対話型システムの動作を説明するための図である。

例えば、図９の（ａ）および（ｂ）に示すように、特定放送番組を視聴していたユーザ６００が“○○○（放送番組名）は何時から？”と発話した場合を仮定する。

この場合、ディスプレイ装置１００は、第２サーバ３００から受信された応答情報に基づいて“○○○（放送番組名）は何時から？”に対する応答メッセージを出力することができる。具体的に、ディスプレイ装置１００は、第２サーバ３００から受信された応答メッセージ情報に基づいて、“○○○（放送番組名）は何時から？”に対する応答メッセージとして、“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”を音声で出力するか、画面上にテキストで出力することができる。

一方、図１０の（ａ）に示すように、特定放送番組を視聴していたユーザ６００は“○番（チャネル番号）に変えて”と発話した場合を仮定する。

この場合、図１０の（ｂ）および（ｃ）のように、ディスプレイ装置１００は第２サーバ３００から受信された応答情報に基づいて“○番（チャネル番号）に変えて”に対応する応答メッセージを出力し、チャネル変更を行うことができる。

具体的に、ディスプレイ装置１００は、第２サーバ３００から受信された応答メッセージ情報に基づいて“○番（チャネル番号）に変えて”に対する応答メッセージとして、“○番（チャネル番号）にチャネルを変更しました”を音声で出力するか、画面上にテキストで出力することができる。そして、ディスプレイ装置１００は、第２サーバ３００から受信された制御命令に基づいて、○番（チャネル番号）にチャネルを変更することができる。

例えば、図１１の（ａ）に示すように、ＤＶＤプレーヤを視聴していたユーザ６００が“ＤＶＤプレーヤの電源を切って”と発話した場合を仮定する。

この場合、図１１の（ｂ）および（ｃ）のように、ディスプレイ装置１００は第２サーバ３００から受信された応答情報に基づいて“ＤＶＤプレーヤの電源を切って”に対する応答メッセージを出力し、ＤＶＤプレーヤ４００の電源をオフにさせることができる。

具体的に、ディスプレイ装置１００は、第２サーバ３００から受信された応答メッセージ情報に基づいて“ＤＶＤプレーヤの電源を切って”に対する応答メッセージとして、“ＤＶＤプレーヤの電源をオフにしました”を音声で出力するか、画面上にテキストで出力することができる。そして、ディスプレイ装置１００は、第２サーバ３００から受信された制御命令に基づいて、ＤＶＤプレーヤの電源をオフにさせることができる。

図１２は、本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。

まず、ユーザの音声を収集する（Ｓ７１０）。具体的に、ディスプレイ装置と一体型をなすか、分離された形のマイクを通じて、ユーザ音声を収集することができる。

その後、ユーザの音声を第１サーバに伝送し（Ｓ７２０）、第１サーバからユーザの音声に対応するテキスト情報を受信する（Ｓ７３０）。具体的に、ＳＴＴアルゴリズムを通じてテキストに変換されたユーザの音声を第１サーバから受信することができる。

続いて、受信されたテキスト情報を第２サーバに伝送し（Ｓ７４０）、テキスト情報に対応する応答情報が第２サーバから受信する（Ｓ７５０）。ここで、応答情報はディスプレイ装置から応答メッセージを抽出するための応答メッセージ情報を含む。即ち、ユーザの音声に対応する応答メッセージがテキスト形式で表現された応答メッセージ情報を第２サーバから受信してよい。

そして、応答情報に基づいてユーザの音声に対応する応答メッセージを出力する（Ｓ７６０）。具体的に、応答テキスト情報に基づいて、ユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

一方、応答情報は、ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。それにより、ディスプレイ装置は、ユーザの音声に対応する応答メッセージを出力するだけでなく、ユーザの音声に対応する特定機能を行うことができるようになる。

そして、第２サーバは、受信されたテキスト情報に基づいてユーザ音声に対する発話意図を判断し、判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて応答情報を生成することができる。すなわち、第２サーバは判断された発話意図による応答情報を生成することができない場合、テキスト情報を外部サーバに伝送する。それにより、外部サーバはテキスト情報に基づいて検索情報を生成して第２サーバに伝送し、第２サーバは検索情報を用いて応答情報を生成してディスプレイ装置に伝送することができる。

なお、本発明に係る制御方法を順次行うプログラムが保存された非一時的な読み取り可能な媒体（Ｎｏｎ−ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）が提供されてよい。

非一時的な読み取り可能な媒体とは、レジスタやキャッシュ、メモリ等のような短い間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り（Ｒｅａｄｉｎｇ）が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、ＣＤやＤＶＤ、ハードディスク、ブルーレイディスク、ＵＳＢ、メモリカード、ＲＯＭ等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。

なお、ディスプレイ装置および遠隔制御装置に対して示した上述のブロック図では、バス（Ｂｕｓ）を示していないが、ディスプレイ装置および遠隔制御装置で各構成要素間の通信はバスによって行われてよい。なお、各デバイスには、上述の多様なステップを行うＣＰＵ、マイクロプロセッサ等のようなプロセッサが更に含まれてよい。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

Claims

ディスプレイ装置において、
音声および映像のうち少なくとも一方を出力する出力部と、
ユーザの音声を収集する音声収集部と、
前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信する第１通信部と、
前記受信されたテキスト情報を第２サーバに伝送する第２通信部と、
前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するように前記出力部を制御する制御部と
を含むディスプレイ装置。
前記応答情報は、
前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、
前記制御部は、
前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で、前記出力部を介して出力することを特徴とする請求項１に記載のディスプレイ装置。
前記応答情報は、
前記ディスプレイ装置の機能を制御するための制御命令を更に含むことを特徴とする請求項２に記載のディスプレイ装置。
前記第２サーバは、
前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成することを特徴とする請求項１に記載のディスプレイ装置。
ディスプレイ装置の制御方法において、
ユーザの音声を収集するステップと、
前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、
前記受信されたテキスト情報を第２サーバに伝送するステップと、
前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するステップと
を含む制御方法。
前記応答情報は、
前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、
前記出力するステップは、
前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力することを特徴とする請求項５に記載の制御方法。
前記応答情報は、
前記ディスプレイ装置の機能を制御するための制御命令を更に含むことを特徴とする請求項６に記載の制御方法。
前記第２サーバは、
前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成することを特徴とする請求項５に記載の制御方法。
第１サーバと、第２サーバおよび前記第１サーバと前記第２サーバとを連動するディスプレイ装置を含む対話型システムにおいて、
前記ディスプレイ装置からユーザ音声が受信されると、前記ユーザ音声に対応するテキスト情報を前記ディスプレイ装置に伝送する第１サーバと、
前記ディスプレイ装置から前記テキスト情報が受信されると、前記テキスト情報に対応する応答情報を前記ディスプレイ装置に伝送する第２サーバと、
前記第２サーバから前記応答情報が受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するディスプレイ装置と
を含む対話型システム。
前記応答情報は、
前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、
前記ディスプレイ装置は、
前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力することを特徴とする請求項９に記載の対話型システム。