JP2014010449A - ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム - Google Patents

ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム Download PDF

Info

Publication number
JP2014010449A
JP2014010449A JP2013077303A JP2013077303A JP2014010449A JP 2014010449 A JP2014010449 A JP 2014010449A JP 2013077303 A JP2013077303 A JP 2013077303A JP 2013077303 A JP2013077303 A JP 2013077303A JP 2014010449 A JP2014010449 A JP 2014010449A
Authority
JP
Japan
Prior art keywords
voice
information
user
server
display device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013077303A
Other languages
English (en)
Inventor
Seung-Il Yoon
勝 一 尹
Sang-Hee Kim
相 姫 金
Jie-Chol Kim
裁 徹 金
Sang Kwon Yi
相 權 李
Cheon Seong Lee
天 成 李
Hye-Jeong Lee
▲へ▼ 汀 李
Jae-Wook Jung
宰 旭 鄭
Tae Hwan Cha
泰 煥 車
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2014010449A publication Critical patent/JP2014010449A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • H04N21/41265The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)
  • Details Of Television Systems (AREA)
  • Facsimiles In General (AREA)

Abstract

【課題】 本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法および対話型システムを提供することにある。
【解決手段】 ディスプレイ装置が開示される。本ディスプレイ装置は、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、ユーザの音声を第1サーバに伝送し、第1サーバからユーザの音声に対応するテキスト情報を受信する第1通信部と、受信されたテキスト情報を第2サーバに伝送する第2通信部と、テキスト情報に対応する応答情報が第2サーバから受信されると、応答情報に基づいて、ユーザの音声に対応する応答メッセージを出力するように出力部を制御する制御部とを含む。
【選択図】 図2

Description

本発明は、ディスプレイ装置、ディスプレイ装置の制御方法および対話型システムに関し、より詳細には、ユーザの音声に応じて制御されるディスプレイ装置、ディスプレイ装置の制御方法および対話型システムに関する。
電子技術の発達により、多様な種類のディスプレイ装置が開発および普及され、ユーザの要求に応じて益々多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。
一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。
しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザとの対話を通じてインタラクティブな情報を提供することができないという限界が存在していた。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法および対話型システムを提供することにある。
以上のような目的を達成するための本発明の一実施形態に係るディスプレイ装置は、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、前記受信されたテキスト情報を第2サーバに伝送する第2通信部と、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するように前記出力部を制御する制御部とを含む。
ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記制御部は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で、前記出力部を介して出力してよい。
なお、前記応答情報は、前記ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。
一方、前記第2サーバは、前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成してよい。
一方、本発明の一実施形態に係るディスプレイ装置の制御方法は、ユーザの音声を収集するステップと、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第2サーバに伝送するステップと、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するステップとを含む。
ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記出力するステップは、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力してよい。
なお、前記応答情報は、前記ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。
一方、前記第2サーバは、前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成してよい。
一方、本発明の一実施形態に係る第1サーバと、第2サーバおよび前記第1サーバと前記第2サーバとを連動するディスプレイ装置を含む対話型システムは、前記ディスプレイ装置からユーザ音声が受信されると、前記ユーザ音声に対応するテキスト情報を前記ディスプレイ装置に伝送する第1サーバと、前記ディスプレイ装置から前記テキスト情報が受信されると、前記テキスト情報に対応する応答情報を前記ディスプレイ装置に伝送する第2サーバと、前記第2サーバから前記応答情報が受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するディスプレイ装置とを含む。
ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記ディスプレイ装置は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力してよい。
以上説明したように、本発明によれば、ユーザと対話可能なディスプレイ装置を提供することができ、ユーザの便宜性を向上させることができる。
本発明の一実施形態に係る対話型システムを説明するための図である。 図1に示す対話型システムの各動作を説明するためのタイミング図である。 図1に示すディスプレイ装置の構成を説明するためのブロック図である。 図3に示すディスプレイ装置の細部構成を説明するためのブロック図である。 図1に示す第1サーバの構成を説明するためのブロック図である。 図1に示す第2サーバの構成を説明するためのブロック図である。 本発明の別の実施形態に係る対話型システムを説明するための図である。 図7に示す対話型システムの各動作を説明するためのタイミング図である。 本発明の一実施形態に係る対話型システムの動作を説明するための図である。 本発明の一実施形態に係る対話型システムの動作を説明するための図である。 本発明の一実施形態に係る対話型システムの動作を説明するための図である。 本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。
図1は、本発明の一実施形態に係る対話型システム1000を説明するための図である。図1に示すように、対話型システムは、ディスプレイ装置100と、第1サーバ200と、第2サーバ300および外部機器400を含む。例えば、ディスプレイ装置100は、図1に示すように、テレビであってよいが、それは一実施形態に過ぎず、スマートフォンのような携帯電話、デスクトップパソコン、ノートパソコン、ナビゲーション等のような多様な電子装置で実現されてよい。
一方、ディスプレイ装置100は、ディスプレイ装置100を制御するための遠隔制御装置(図示せず)によって制御されてよい。例えば、ディスプレイ装置100がテレビで実現された場合、リモコン(図示せず)から受信された制御信号に応じて電源オン/オフ、チャネル変換、音量変更等の動作を行うことができる。
なお、外部機器400は、多様な電子装置で実現されてよい。例えば、外部機器400は、図1に示すように、DVDプレーヤであってよいが、それは一例に過ぎない。すなわち、外部機器400は、セットトップボックス、音響機器、ゲーム機等のように、ディスプレイ装置100に接続されて機能を行うことができる電子装置で実現されてよい。
ディスプレイ装置100は、ユーザ音声に応じて多様な機能を行うことができる。
具体的に、ディスプレイ装置100は、ユーザの音声に対応する応答メッセージを出力するか、ユーザ音声に対応する機能を行ったり、ユーザの音声に対応する機能を行うように、外部機器400を制御することができる。
そのために、ディスプレイ装置100は、収集されたユーザの音声を第1サーバ200に伝送する。第1サーバ200は、ディスプレイ装置100からユーザの音声が受信されると、受信されたユーザの音声をテキスト情報(または、テキスト)に変換し、テキスト情報をディスプレイ装置100に伝送する。
そして、ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する。第2サーバ300は、ディスプレイ装置100からテキスト情報が受信されると、受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送する。
ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいて、多様な動作を行うことができる。
具体的に、ディスプレイ装置100は、ユーザの音声に対応する応答メッセージを出力することができる。ここで、応答メッセージは、音声およびテキストのうち少なくとも一方で出力されてよい。例えば、ディスプレイ装置100は、特定番組の放送時間を問い合わせるユーザの音声が入力されると、当該番組の放送時間を音声またはテキスト形態で出力したり、これらの組み合わせで出力してよい。
なお、ディスプレイ装置100は、ユーザの音声に対応する機能を行うことができる。すなわち、ディスプレイ装置100は、ディスプレイ装置100から提供可能な機能のうち、ユーザの音声に対応する機能を行うことができる。例えば、ディスプレイ装置100は、チャネル変更のためのユーザの音声が入力されると、当該チャネルを選局してディスプレイすることができる。
この場合、ディスプレイ装置100は、当該機能に対応する応答メッセージを併せて提供することもできる。すなわち、ディスプレイ装置100は、ユーザの音声に応じて行われた機能に対する情報を音声またはテキスト形態で出力するか、これらの組み合わせで出力することができる。上述の例の場合、ディスプレイ装置100は、変更されたチャネルに対する情報またはチャネル変更が完了していることを示すメッセージを、音声およびテキストのうち少なくとも一方で出力することができる。
なお、ディスプレイ装置100は、ユーザの音声に対応する機能を行うように、外部機器400を制御することができる。すなわち、ディスプレイ装置100は、外部機器400から提供可能な機能のうち、ユーザの音声に対応する機能を行うように外部機器400を制御することができる。そのために、ディスプレイ装置100は、ユーザの音声に対応する機能を行うための制御命令を外部機器400に伝送することができる。
例えば、外部機器400が、図1に示すように、DVDプレーヤで実現された場合、ディスプレイ装置100は、ユーザの音声に応じて、DVDプレーヤの電源をオン/オフさせるための制御命令、再生のための制御命令、一時停止のための制御命令等をDVDプレーヤに伝送することができる。
しかし、それは外部機器400がDVDプレーヤで実現された場合の一例に過ぎない。すなわち、ディスプレイ装置100は外部機器400の種別でユーザの音声に対応する機能を行うための制御命令を外部機器400に伝送することができる。例えば、外部機器400がセットトップボックスで実現された場合、ディスプレイ装置100はチャネルを転換するためのユーザの音声に基づいてチャネル転換のための制御命令をセットトップボックスに伝送することもできる。
一方、図1の対話型システム1000に外部機器400が含まれるものとして示しているが、それは一例に過ぎず、必ずしも外部機器400が含まれなければならないというわけではない。
ただ、ディスプレイ装置100は、外部機器400が接続されていない状態で、外部機器400を制御するためのユーザの音声が入力されると、ユーザの音声による動作を行うことができないことを示すメッセージを出力することができる。例えば、図1のような対話型システム1000でDCDプレーヤが接続されていない状態で、DVDプレーヤの電源をオフにさせるためのユーザの音声が入力されると、ディスプレイ装置100は“DVDプレーヤが接続されていません。”または“DVDプレーヤの接続を確認して下さい”のようなメッセージを音声およびテキストのうち、少なくとも一方の形態で出力することができる。
図2は、図1に示す対話型システムの各動作を説明するためのタイミング図である。
図2に示すように、ディスプレイ装置100は、ユーザ音声を収集し(S10)、第1サーバ200に伝送する(S20)。具体的に、ユーザ音声を収集するためのモードが開始されると、ディスプレイ装置100は予め設定された距離以内において、ユーザが発話した音声を収集して第1サーバ200に伝送することができる。
そのために、ディスプレイ装置100は、ユーザが発話した音声を入力されるためのマイク等を備えてよい。この場合、マイクは、ディスプレイ装置100に内蔵されて一体型をなすか、ディスプレイ装置100と分離した形態で実現されてよい。分離した形態で実現される場合、マイクはユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置100と有線または無線ネットワークを通じて接続されてよい。
第1サーバ200は、ディスプレイ装置100から受信されたユーザ音声をテキスト情報に変換する(S30)。具体的に、第1サーバ200は、STT(Speech To Text)アルゴリズムを用いて、ディスプレイ装置100から受信されたユーザの音声をテキスト情報に変換することができる。そして、第1サーバ200は、テキスト情報をディスプレイ装置100に伝送する(S40)。
ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する(S50)。第2サーバ300は、ディスプレイ装置100からテキスト情報が受信されると、テキスト情報に対応する応答情報を生成する。
ここで、応答情報は、ディスプレイ装置100から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージは、ディスプレイ装置100から収集されたユーザの音声に対応する回答として、応答メッセージ情報はユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されるものであってよい。それにより、ディスプレイ装置100は、応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。
なお、応答情報は、ユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令は、ユーザの音声に対応する機能を行うようにディスプレイ装置100を制御するための制御命令またはユーザの音声に対応する機能を行うように、外部機器400を制御するための制御命令を含んでよい。それにより、ディスプレイ装置100は、ユーザの音声による機能を行うか、ユーザの音声による機能が行われるように外部機器400を制御することができる。
一方、ディスプレイ装置100は受信された応答情報に基づいて、ユーザの音声に対応する動作を行う(S80)。
具体的に、ディスプレイ装置100は応答情報に含まれた応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。すなわち、ディスプレイ装置100は、第2サーバ300からテキスト形式の応答メッセージ情報が受信されると、TTS(Text To Speech)アルゴリズムを用いてテキストを音声に変換して出力したり、応答メッセージ情報を構成するテキストが含まれるように、UI(User Interface)画面を構成して出力することができる。
例えば、ディスプレイ装置100で“○○○(放送番組名)は何時から?”というユーザ音声が収集された場合、第2サーバ300は、“土曜日の夕方7時からです”というテキスト形式の応答メッセージ情報をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、“土曜日の夕方7時からです”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。
なお、ディスプレイ装置100は、応答情報に含まれた制御命令に従って、ユーザの音声に対応する機能を行うように制御することができる。例えば、“ディスプレイ装置100で○○○(放送番組名)を録画して”というユーザの音声が収集された場合、第2サーバ300は“○○○”の予約録画機能を行うための制御命令をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、当該放送番組に対する予約録画を行うことができる。
別の例として、図1のように、外部機器400がDVDプレーヤで実現された場合を仮定する。この場合、“DVDプレーヤをつけて”というユーザの音声が収集されると、第2サーバ300はDVDプレーヤの電源をオンさせるための制御命令をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、電源をオンさせるための制御命令をDVDプレーヤに伝送し、DVDプレーヤの電源をオンさせることができる。
この場合、応答情報は、ディスプレイ装置100で行われる機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第2サーバ300は“○○○の録画が予約されました”というテキスト形式の応答メッセージ情報をディスプレイ装置100に制御命令とともに伝送し、ディスプレイ装置100は予約録画機能の実行とともに、“○○○の録画が予約されました”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。
なお、応答情報は、外部機器400で行われる機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第2サーバ300は“DVDプレーヤの電源を入れました”というテキスト形式の応答メッセージ情報をディスプレイ装置100に制御命令とともに伝送し、ディスプレイ装置100は、DVDプレーヤの電源をオンさせる動作とともに、“DVDプレーヤの電源を入れました”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。
図3は、図1に示すディスプレイ装置の構成を説明するためのブロック図である。
図3に示すように、ディスプレイ装置100は、出力部110と、音声収集部120と、第1通信部130と、第2通信部140および制御部150を含む。特に、図3は、外部機器400を除き、対話型システム1000を実現した場合に、ディスプレイ装置100の構成を説明するためのブロック図である。よって、外部機器400を含んで対話型システム1000を実現した場合、ディスプレイ装置100は、外部機器400との通信のための別途の構成要素を更に含んでよい。出力部110は、音声および映像のうち少なくとも一方を出力する。具体的に、出力部110は、音声収集部120を介して収集されたユーザの音声に対応する音声メッセージを音声およびテキストのうち、少なくとも一方を形態で出力してよい。
そのために、出力部110は、ディスプレイ部(図示せず)およびオーディオ出力部(図示せず)を備えてよい。
具体的に、ディスプレイ部(図示せず)は、液晶表示装置(Liquid Crystal Display、LCD)、有機電気発光ダイオード(Organic Light Emitting Display、OLED)またはプラズマ表示パネル(Plasma Display Panel、PDP)等で実現され、ディスプレイ装置100を介して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部(図示せず)は、ユーザの音声に対応する応答メッセージをテキストまたはイメージ形態でディスプレイすることができる。
ここで、ディスプレイ部(図示せず)がタッチパッドとともに相互レイヤ構造をなすタッチスクリーン形態で実現されてよく、タッチスクリーンはタッチ入力位置、面積、タッチ入力の圧力までも検出するように構成されてよい。
一方、オーディオ出力部(図示せず)は、ジャック等のような出力ポートまたはスピーカ等で実現され、ユーザの音声に対応する応答メッセージを音声形態で出力することができる。
一方、出力部110は、多様な映像およびオーディオを出力することができる。ここで、映像およびオーディオは、放送コンテンツやマルチメディアコンテンツ等を構成する映像およびオーディオであってよい。
音声収集部120は、ユーザの音声を収集する。例えば、音声収集部120は、ユーザの音声を収集するためのマイクロで実現され、ディスプレイ装置100に内蔵されて一体型をなすか、ディスプレイ装置100と分離された形態で実現されてよい。分離された形態で実現される場合、音声収集部120は、ユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置100と有線または無線ネットワークを通じて接続されて収集されたユーザの音声をディスプレイ装置100に伝送することができる。
一方、音声収集部120は、収集された音声がユーザの音声かを判断し、ユーザの音声からノイズ(例えば、エアコンの音や掃除機の音、音楽の音等)をフィルタリングすることもできる。
例えば、音声収集部120は、アナログ形態のユーザ音声が入力されると、それをサンプリングしてデジタル信号に変換する。そして、音声収集部120は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上であるか否かを判断する。
デジタル信号のエネルギーが予め設定された値以上である場合、音声収集部120はデジタル信号からノイズ成分を除去し、第1通信部130に伝達する。このとき、ノイズ成分は、家庭環境で発生し得る突発性雑音として、エアコンの音や掃除機の音、音楽の音等が含まれてよい。一方、デジタル信号のエネルギーが予め設定された値未満である場合、音声収集部120はデジタル信号に特別な処理過程を経ずに、別の入力を待つ。
それにより、ユーザの音声ではない別の音によって全オーディオ処理過程が活性化しないため、不要な電力消耗を防止することができる。
第1通信部130は、第1サーバ(図1の200)と通信を行う。具体的に、第1通信部130は、ユーザの音声を第1サーバ200に伝送し、ユーザの音声に対応するテキスト情報を第1サーバ200から受信してよい。
第2通信部140は、第2サーバ(図1の300)と通信を行う。具体的に、第2通信部140は、受信されたテキスト情報を第2サーバ300に伝送し、テキスト情報に対応する応答情報を第2サーバ300から受信してよい。
そのために、第1通信部130および第2通信部140は、多様な通信方式を用いて第1サーバ200および第2サーバ300と通信を行うことができる。
例えば、第1通信部130および第2通信部140は、有/無線LAN(Local Area Network)、WAN、イーサネット(登録商標)、ブルートゥース(Bluetooth(登録商標))、Zigbee(登録商標)、USB(Universal Serial Bus)、IEEE 1394、Wi−Fi等を用いて、第1サーバ200および第2サーバ300と通信を行うことができる。そのために、第1通信部130および第2通信部140は、各通信方式に対応するチップまたは入力ポート等を具備することができる。例えば、有線LAN方式で通信を行う場合、第1通信部130および第2通信部140は、有線LANカード(図示せず)および入力ポート(図示せず)を備えてよい。
一方、上述の実施形態では、ディスプレイ装置100が第1サーバ200および第2サーバ300と通信を行うために、別途の通信部130、140を備えるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置100は一つの通信モジュールを通じて第1サーバ200および第2サーバ300と通信を行うことができることは言うまでもない。
制御部150は、ディスプレイ装置100の動作全般を制御する。具体的に、制御部150は、音声収集部120を介してユーザの音声を収集し、収集されたユーザの音声を第1サーバ300に伝送するように第1通信部130を制御することができる。そして、制御部150は、ユーザの音声に対応するテキスト情報を受信するように、第1通信部130を制御することができる。
一方、制御部150は、テキスト情報に対応する応答情報が第2サーバ300から受信されると、応答情報に基づいてユーザの音声に対応する応答メッセージを出力するように出力部110を制御することができる。
ここで、応答情報は、応答メッセージを出力するための応答メッセージ情報を含んでよい。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されたものとして、制御部150は応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力部110を介して出力することができる。
具体的に、制御部150は、TTSエンジンを用いて、テキスト形態の応答メッセージ情報を音声に変換して出力部110を介して出力することができる。ここで、TTSエンジンとは、テキストを音声に変換するためのモジュールとして、従来開示されている多様なTTSアルゴリズムを用いてテキストを音声に変換することができる。なお、制御部150は、応答メッセージ情報を構成するテキストを含むように、UI画面を構成して出力部110を介して出力することもできる。
例えば、テレビで実現されたディスプレイ装置100が“最も人気のある番組名を教えて”というユーザの音声を収集すると、第2サーバ300は“最も人気のある番組は○○○(放送番組名)です”をテキスト形式で表示してディスプレイ装置100に伝送することができる。この場合、制御部150は、“最も人気のある番組は○○○(放送番組名)です”を音声に変換して出力部110を介して出力したり、“最も人気のある番組は○○○(放送番組名)です”というテキストが含まれるように、UI画面を構成して出力部110を介して出力するように制御することができる。
なお、応答情報は、ディスプレイ装置100の機能を制御するための制御命令を含んでよい。ここで、制御命令は、ディスプレイ装置100で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部150は、第2サーバ300から受信された制御命令に基づいて、ユーザの音声に対応する機能が実行されるようにディスプレイ装置100の各構成要素を制御することができる。
例えば、テレビで実現されたディスプレイ装置100が“テレビの音量を上げて”というユーザ音声を収集すると、第2サーバ300はディスプレイ装置100の音量を上げるための制御命令をディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて出力部110を介して出力されるオーディオの音量を上げることができる。ただ、それは一例に過ぎず、制御部150は、収集されたユーザの音声に応じて、電源オン/オフ、チャネル変更等の多様な動作が行われるように、ディスプレイ装置100の各構成要素を制御することができる。
なお、応答情報は、制御命令に従って実行された機能に関連する応答メッセージ情報を含んでよい。この場合、制御部150は、制御命令による機能を行い、応答メッセージ情報に基づいて実行された機能に関連する応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。
例えば、テレビで実現されたディスプレイ装置100が“チャネルを11番に変更して”というユーザの音声を収集すると、第2サーバ300はディスプレイ装置100のチャネルを11番に変更するための制御命令と、“チャネルを11番に変更しました”をテキスト形式で表示してディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて出力部110を介して出力される放送チャネルを11番に変更する。そして、制御部150は、“チャネルを11番に変更しました”を音声に変換して出力110を介して出力するか、“チャネルを11番に変更しました”というテキストが含まれるようにUI画面を構成して、出力部110を介して出力するように制御することができる。
上述の例のように、制御部150は、ユーザの音声に対応する応答メッセージを出力したり、ユーザの音声に対応する機能を実行するように制御することができる。
一方、ディスプレイ装置100で別途の機能を実行することなく、ユーザの音声に対応する応答メッセージを出力する場合は、ユーザの音声がディスプレイ装置100で実行されることができない機能を実行させようとする場合を更に含んでよい。
例えば、ディスプレイ装置100がテレビ電話機能をサポートしないテレビで実現された場合を仮定する。この場合、ディスプレイ装置100で“XXXに電話をかけて”というユーザ音声を収集すると、第2サーバ300はテレビ電話実行のための制御命令をディスプレイ装置100に伝送することができる。しかし、ディスプレイ装置100では、当該制御命令に対応する機能がサポートされていないということから、制御部150は、第2サーバ300から受信された制御命令を認識することができなくなる。この場合、制御部150は、“サポートされていない機能です”という応答メッセージを、出力部110を介して、音声およびテキストのうち少なくとも一方の形態で出力することができる。
一方、上述の実施形態では、第2サーバ300から伝送される応答メッセージ情報は、応答メッセージがテキスト形式で表示されたものとして説明したが、それは一例に過ぎない。すなわち、応答メッセージ情報は、ディスプレイ装置100から出力される応答メッセージを構成する音声データそのものか、当該応答メッセージを構成する音声データの一部か、ディスプレイ装置100に予め保存された音声またはテキストを用いて、当該応答メッセージを出力するための制御信号の形態であってよい。
それにより、制御部150は、応答メッセージ情報の形態を考慮し、応答メッセージを出力することができる。
具体的に、制御部150は、応答メッセージを構成する音声データそのものが受信されると、当該データを出力部110から出力可能な形態で処理して音声およびテキストのうち、少なくとも一方の形態で出力することができる。
一方、制御部150は、応答メッセージを出力するための制御信号が受信されると、ディスプレイ装置100に予め保存されたデータのうち、制御信号にマッチするデータを検索し、検索された音声またはテキストデータを出力可能な形態で処理して、出力部110を介して出力することができる。そのために、ディスプレイ装置100は、応答メッセージを提供するための音声またはテキストデータを保存していることができる。例えば、ディスプレイ装置100は、“チャネル変更が完了しました”といった完全な文章形態のデータを保存していてよく、なお、“チャネルを・・番に変更しました”のような文章を構成する一部データを保存していてよい。この場合、当該文章を完成させるチャネル名は第2サーバ300から受信されてよい。
図4は、図3に示すディスプレイ装置の細部構成を説明するためのブロック図である。図4に示すように、ディスプレイ装置100は図3に示す構成要素の他に、インターフェース部160と、入力部170と、保存部180と、受信部190および信号処理部195を更に含んでよい。図4に示す構成要素のうち、図3に示す構成要素と重複する構成要素は、その機能が同一であるため、詳細な説明は省略する。
インターフェース部160は、外部機器(図1の400)と通信を行う。具体的に、インターフェース部160は、HDMI(登録商標)やUSB等の各種の有線通信方式、ブルートゥース、Zigbee等の無線通信方式によって外部機器400と通信を行うことができる。そのために、インターフェース部160は、各通信方式に対応するチップまたは入力ポート等を備えてよい。例えば、HDMI通信方式によって外部機器400と通信を行う場合、インターフェース部160はHDMIポートを備えてよい。
一方、ディスプレイ装置100は、第2サーバ300から応答情報を受信して多様な動作を行うことについて、図3を参照して上述している。
この場合、応答情報は、外部機器400の機能を制御するための制御命令を含んでよい。ここで、制御命令は外部機器400で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部150は、第2サーバ300から受信された制御命令をインターフェース部160を介して外部機器400に伝送し、外部機器400がユーザの音声に対応する機能を行うように制御することができる。
例えば、外部機器400がDVDプレーヤで実現された場合を仮定する。ディスプレイ装置100が“DVDプレーヤの電源を入れて”というユーザの音声を収集すると、第2サーバ300はDVDプレーヤの電源をオンさせるための制御命令をディスプレイ装置100に伝送することができる。この場合、制御部150は、第2サーバ300から受信された制御命令をDVDプレーヤに伝送するように制御することができる。それにより、DVDプレーヤは、ディスプレイ装置100から受信された制御命令に基づいて自分の電源をオンさせることができる。ただ、それは一例に過ぎず、外部機器400はユーザ音声に応じて受信された制御命令に基づいて、多様な機能を行うことができることは言うまでもない。
一方、制御部150は、第2サーバ300から受信された制御命令に基づいて外部機器400を制御することができない場合、ユーザの音声に応じて外部機器400を制御することができないことを示すメッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。ここで、制御命令に基づいて外部機器400を制御することができない場合は、第2サーバ300から受信された制御命令の対象となる機器がディスプレイ装置100に接続されていない場合を含んでよい。
すなわち、制御部150は、インターフェース部160に接続された外部機器400の種類を判断し、第2サーバ300から受信された制御命令の対象となる機器がインターフェース部160に接続されていない場合、当該内容を示すメッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。
例えば、ディスプレイ装置100に接続された外部機器400がDVDプレーヤで実現された場合を仮定する。この場合、ディスプレイ装置100が“ゲーム機の電源を入れて”というユーザの音声を収集すると、第2サーバ300はゲーム機の電源をオンさせるための制御命令をディスプレイ装置100に伝送することができる。このとき、制御部150は、制御命令の対象となるゲーム機がインターフェース部160に接続されていない状態であるため、“ゲーム機の接続状態を確認して下さい”または“サポートされていない音声です”といったメッセージを音声およびテキストのうち、少なくとも一方の形態で出力してよい。
入力部170は、多様なユーザ操作を受信して制御部150に伝達するための入力手段として、入力パネルで実現されてよい。ここで、入力パネルは、タッチパッド(Touch Pad)或いは各種機能キーや数字キー、特殊キー、文字キー等を備えたキーパッド(Key Pad)またはタッチスクリーン(Touch Screen)方式で行われてよい。更に、入力部170は、ディスプレイ装置100を制御するためのリモコンから伝送されるリモコン信号を受信するためのIR受信部(図示せず)で実現されてよい。
一方、入力部170は、ディスプレイ装置100の機能を制御するための各種ユーザ操作を受信することができる。例えば、ディスプレイ装置100がスマートテレビで実現される場合、電源オン/オフ、チャネル変更、音量変更等、スマートテレビの機能を制御するためのユーザ操作を受信することができる。この場合、制御部150は、入力部170を介して入力されたユーザ操作に対応する各種機能を実行するように別の構成要素を制御することができる。例えば、制御部150は、電源オフ命令が入力されると、ディスプレイ装置100の各構成要素に供給される電源を遮断することができ、チャネル変更が入力されると、ユーザ操作に応じて選択されたチャネルを選局するように、受信部180を制御することができる。
特に、入力部170は、ユーザの音声を収集するための音声認識モードを開始するためのユーザ操作を入力される。例えば、入力部170は、ディスプレイ部とともにタッチスクリーン形態で実現され、音声認識モードを入力されるためのオブジェクト(仮に、アイコン)をディスプレイすることができる。一方、入力部170は、音声認識モードを入力されるための別途のボタンを備えることもできる。
音声認識モードを開始するためのユーザ操作が入力部170を介して入力されると、制御部150は音声収集部120を活性化して、ユーザの音声を収集することができる。そして、制御部150は、第1サーバ200および第2サーバ300との通信を通じて収集されたユーザ音声に対応する応答情報を受信し、応答メッセージを出力したり、特定機能を実行するように制御することができる。
保存部180は、ディスプレイ装置100を動作させるために必要な各種プログラム等が保存される保存媒体として、メモリやHDD(Hard Disk Drive)等で実現可能である。例えば、保存部180は、制御部150の動作実行のためのプログラムを保存するためのROM、制御部150の動作実行によるデータを一時的に保存するためのRAM等を備えてよい。なお、各種参照データを保存するためのEEPROM(Electrically Erasable and Programmable ROM)等を更に備えてよい。
特に、保存部180は、ユーザの音声に対応する各種応答メッセージを音声またはテキストデータで予め保存していてよい。それにより、制御部150は、第2サーバ300から受信される音声メッセージ情報(特に、制御信号)に対応する音声またはテキストデータを保存部180から読み取ってオーディオ出力部112またはディスプレイ部111に出力することができる。この場合、制御部150は、音声データに対してデコーディング等の信号処理を行い、デコーディングされた音声データを増幅してオーディオ出力部112を介して出力することができ、テキストデータを構成するテキストが含まれるようにUI画面を構成してディスプレイ部111を介して出力することができる。上述の実施形態では、制御部150が保存部180から読み取られた音声およびテキストデータに対する信号処理を行うものとして説明したが、制御部150は、音声およびテキストデータに対する信号処理を行うように、信号処理部195を制御することもできる。
受信部190は、多様なコンテンツを受信する。具体的に、受信部190は、放送ネットワークを用いて放送番組コンテンツを伝送する放送局またはインターネットを用いてコンテンツファイルを伝送するウェブサーバからコンテンツを受信する。なお、ディスプレイ装置100内に設けられたり、ディスプレイ装置100に接続された各種記録媒体再生装置からコンテンツを受信することもできる。記録媒体再生装置とは、CDやDVD、ハードディスク、ブルーレイディスク、メモリカード、USBメモリ等のような多様な記録媒体に保存されたコンテンツを再生する装置を意味する。
放送局からコンテンツを受信する実施形態の場合には、受信部190は、チューナ(図示せず)、復調器(図示せず)、等化器(図示せず)等のような構成を含む形態で実現されてよい。一方、ウェブサーバのようなソースからコンテンツを受信する実施形態の場合には、受信部190は、ネットワークインターフェースカード(図示せず)で実現されてよい。または、上述の各種記録媒体再生装置からコンテンツを受信する実施形態の場合には、受信部190は、記録媒体再生装置と接続されたインターフェース部(図示せず)で実現されてよい。このように、受信部190は、実施形態に応じて多様な形態で実現されてよい。
信号処理部195は、受信部190を介して受信されたコンテンツが出力部110を介して出力できるようにコンテンツに対する信号処理を行う。
具体的に、信号処理部195は、コンテンツに含まれたビデオ信号に対してデコーディング、スケーリングおよびフレームレート変換等の動作を行い、ディスプレイ部111から出力可能な形態でビデオ信号を変換することができる。なお、信号処理部195は、コンテンツに含まれたオーディオ信号に対してデコーディング等の信号処理を行ってオーディオ出力部112から出力可能な形態でオーディオ信号を変換することができる。
図5は、図1に示す第1サーバの構成を説明するためのブロック図である。図5に示すように、第1サーバ200は、通信部210および制御部220を含む。
通信部210は、ディスプレイ装置100と通信を行う。具体的に、通信部210は、ディスプレイ装置100からユーザの音声を受信し、ユーザの音声に対応するテキスト情報をディスプレイ装置100に伝送することができる。そのために、通信部210は、多様な通信モジュールを含んでよい。
制御部220は、第1サーバ200の動作全般を制御する。特に、制御部220は、ディスプレイ装置100からユーザの音声が受信されると、ユーザの音声に対応するテキスト情報を生成し、それをディスプレイ装置100に伝送するように通信部210を制御する。
具体的に、制御部220は、STT(Speech To Text)エンジンを用いて、ユーザの音声に対応するテキスト情報を生成することができる。ここで、STTエンジンとは、音声信号をテキストに変換するためのモジュールとして、従来開示されている多様なSTTアルゴリズムを用いて音声信号をテキストに変換することができる。
例えば、制御部220は、受信されたユーザの音声内でユーザが発話した音声の開始と終了とを検出して音声区間を判断する。具体的に、制御部220は、受信された音声信号のエネルギーを計算し、計算されたエネルギーに応じて音声信号のエネルギーレベルを分類して、動的プログラミングを通じて音声区間を検出することができる。そして、制御部220は、検出された音声区間内において、音響モデル(Acoustic Model)に基づいて、音声の最小単位である音素を検出して音素データを生成し、生成された音素データにHMM(Hidden Markov Model)確率モデルを適用して、ユーザの音声をテキストに変換することができる。
図6は、図1に示す第2サーバの構成を説明するためのブロック図である。図6に示すように、第2サーバ300は、通信部310と、保存部320および制御部330を含む。
通信部310は、ディスプレイ装置100と通信を行う。具体的に、通信部310は、ディスプレイ装置100からテキスト情報を受信し、テキスト情報に対応する応答情報をディスプレイ装置100に伝送することができる。そのために、通信部310は、多様な通信モジュールを含んでよい。
保存部320は、ディスプレイ装置100から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存する。
具体的に、保存部320は、サービスドメイン別の対話パターンを保存する。ここで、サービスドメインは、ユーザが発話した音声が属するテーマに応じて、“放送”、“VOD”、“アプリ管理”、“機器制御”、“情報(天気や株式、ニュース等)提供”等で区分されてよい。しかし、それは一例に過ぎず、その他にも、多様なテーマに応じてサービスドメインを区分することができることはいうまでもない。
より具体的に、保存部320は、各サービスドメイン別のコーパス(corpus)データベースを備えてよい。ここで、コーパスデータベースとは、例文およびそれに対する回答を保存する形態で実現されてよい。
すなわち、保存部320は、各サービスドメイン別に複数の例文および各例文に対する回答を保存することができる。なお、保存部320は、例文を解釈するための情報および例文に対応する回答を各例文ごとにタグ付け(Tagging)して保存することができる。
例えば、放送サービスドメイン内に“○○○(放送番組名)は何時から?”という例文が保存された場合を仮定する。
この場合、保存部320は、“○○○(放送番組名)は何時から?”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○○(放送番組名)は何時から?”のような例文において、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜は何時から?”という形式を有する例文の冒頭には放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、放送番組名、出演者、演出者等が含まれてよい。
なお、保存部320は、“○○○(放送番組名)は何時から?”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○○(放送番組名)は何時から?”に対する回答として、“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をタグ付けして保存することができる。
別の例として、放送サービスドメイン内に“○番(チャネル番号)に変えて”という例文が保存された場合を仮定する。
この場合、保存部320は、“○番(チャネル番号)に変えて”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)に変えて”のような例文において、“○番(チャネル番号)”はチャネル番号を示し、“変え”とはチャネル選局命令を示し、“て”とは例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜に変えて”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。
なお、保存部320は、“○番(チャネル番号)に変えて”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)に変えて”に対する回答として、“<チャネル番号>にチャネルを変更しました”をタグ付けして保存することができる。
更に別の例として、機器制御ドメイン内に、“○○(機器名称)の電源を切って”という例文が保存された場合を仮定する。
この場合、保存部320は、“○○(機器名称)の電源を切って”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○(機器名称)の電源を切って”のような例文において、“○○(機器名称)”は機器名称を示し、“電源”、“切っ”とは電源オフ命令を示し、“て”とは当該例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜の電源を切って”という形式を有する例文の冒頭には、機器に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、機器に関連する単語は、機器名称、製造元等を含んでよい。
なお、保存部320は、“○○(機器名称)の電源を切って”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○(機器名称)の電源を切って”に対する回答として、“<機器名称>の電源をオフにしました”をタグ付けして保存することができる。
なお、保存部320は、各例文にディスプレイ装置100または外部機器400を制御するための制御命令をタグ付けして保存することができる。特に、保存部320は、ディスプレイ装置100または外部機器400を制御するためのユーザの音声に対応する例文にディスプレイ装置100または外部機器400を制御するための制御命令をタグ付けして保存することができる。
例えば、保存部320は、“○番(チャネル番号)に変えて”といった例文にディスプレイ装置100のチャネルを○番に変更するための制御命令をタグ付けして保存することができる。別の例として、保存部320は、“○○(機器名称)の電源を切って”といった例文に機器名称を有する外部機器400の電源をオフさせるための制御命令をタグ付けして保存することができる。
一方、保存部320は、保存される例文およびそれに対する回答について説明してきた。しかし、それは一例に過ぎず、サービスドメイン別に多様な例文およびそれに対する回答が保存できることは言うまでもない。
制御部330は、第2サーバ300の動作全般を制御する。特に、ディスプレイ装置100からユーザの音声に対応するテキスト情報が受信されると、制御部330は、受信されたテキスト情報に対応する応答情報を生成し、生成された応答情報を通信部310を介してディスプレイ装置100に伝送するように制御することができる。具体的に、制御部330は、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送するように通信部310を制御することができる。
そのために、制御部330は、受信されたテキスト情報にマッチする対話パターンが存在するコーパスデータベースを検出し、ユーザの音声が属するサービスドメインを判断することができる。
具体的に、制御部330は、受信されたテキスト情報を各サービスドメイン別に保存された例文と比較し、受信されたテキスト情報にマッチする例文が属するサービスドメインをユーザの音声が属するサービスドメインとして判断することができる。
例えば、制御部320は、ディスプレイ装置100から“○○○(放送番組名)は何時から?”または“○番(チャネル番号)に変えて”というテキストが受信されると、ディスプレイ装置100で収集したユーザの音声が放送サービスドメインに属すると判断することができ、ディスプレイ装置100から“○○(機器名称)の電源を切って”というテキストが受信されると、ディスプレイ装置100から収集したユーザの音声が機器制御ドメインに属すると判断することができる。
一方、制御部330は、受信されたテキスト情報にマッチする例文が存在しない場合、統計的にユーザの音声が属するドメインを判断することができる。
例えば、ディスプレイ装置100が“○番(チャネル番号)に変えて”を収集し、収集されたユーザの音声に対するテキストを第2サーバ300に伝送した場合を仮定する。この場合、制御部330は、HMM(Hidden Markov Model)、CRF(Condition Random Fields)、SVM(Support Vector Machine)等の分類モデルを使用してユーザの音声が“○番(チャネル番号)に変えて”と統計的に類似すると判断し、“○番(チャネル番号)に変えて”は放送サービスドメインに属すると判断することができる。
そして、制御部330は、予め保存された例文と統計的に類似すると判断されたテキスト情報を保存することもできる。この場合、制御部330は、テキスト情報を統計的に類似する例文が属するサービスドメインの更に別の例文で保存することができる。
この場合、制御部330は、予め保存された例文を参照して、新たに保存される例文を解釈するための情報およびそれに対応する回答を新たに保存される例文にタグ付けして保存することができる。
例えば、“○番(チャネル番号)に変えて下さい”を新たな例文として保存する場合を仮定する。
この場合、制御部330は、“○番(チャネル番号)に変えて”を参照して“○番(チャネル番号)に変えて下さい”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、制御部330は、“○番(チャネル番号)に変えて下さい”のような例文において、“○番(チャネル番号)”はチャネル番号を示し、“変えて”とはチャネル選局命令を示し、“下さい”とは例文のタイプは要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜に変えて下さい”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。
なお、保存部320は、“○番(チャネル番号)に変えて下さい”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)に変えて下さい”に対する回答として、“<チャネル番号>にチャネルを変更しました”をタグ付けして保存することができる。
なお、制御部330は、ディスプレイ装置100から受信されたテキスト情報にマッチする例文が複数個存在し、これらが互いに異なるサービスドメインに属する場合、統計的に分析してユーザの音声の属するサービスドメインとして判断することができる。
具体的に、制御部330は、ディスプレイ装置100から受信されたテキスト情報を構成する単語(または、形態素)が各サービスドメイン内に存在する頻度数に基づいて各単語(または、形態素)に加重値を与えて、与えられた加重値を考慮してユーザの音声の属するサービスドメインとして判断することができる。
例えば、“○○○(放送番組名)に変えて”という例文が放送サービスドメインおよびVODサービスドメインに各々保存された状態で、“○○○(放送番組名)に変えて”のようなテキストがディスプレイ装置100から受信された場合を仮定する。
この場合、制御部330は、“○○○(放送番組名)に変えて”にマッチする例文が放送サービスドメインおよびVODサービスドメインに存在すると判断し、“○○○(放送番組名)に変えて”を構成する単語(または、形態素)である“変え”および“て”が、各サービスドメイン内に存在する頻度数に基づいて各サービスドメイン別に“変え”および“て”に加重値を与えることができる。
例えば、制御部330は、放送サービスドメイン内に保存された全例文の中から、“変え”を含む例文の占める割合を放送サービスドメインから“変え”の加重値として算出し、放送サービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合を放送サービスドメインから“て”の加重値を算出することができる。
このような方法で、制御部330は、VODサービスドメイン内に保存された全例文の中から、“変え”を含む例文の占める割合をVODサービスドメインから“変え”の加重値として算出し、VODサービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合をVODサービスドメインから“て”の加重値を算出することができる。
その後、制御部330は、各単語に対して与えられた加重値を演算してユーザの音声の属するサービスドメインを判断することができる。上述の例において、制御部330は、放送サービスドメイン内において、“変え”と“て”の各々に与えられた加重値を互いに掛け算した結果と、VODサービスドメイン内において、“変え”と“て”の各々に与えられた加重値を互いに掛け算した結果とを比較し、結果値の大きいサービスドメインにユーザの音声が属すると判断することができる。
すなわち、制御部330は、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値が、VODサービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○(放送番組名)に変えて”は、放送サービスドメインに属すると判断することができる。逆に、制御部330は、VODサービスドメイン内において与えられた加重値に基づいて算出された結果値が、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○(放送番組名)に変えて”は、VODサービスドメインに属すると判断することができる。
しかし、それは一例に過ぎず、制御部330は、多様な方式を通じて統計的にユーザの音声の属するサービスドメインを判断することができる。
その後、制御部330は、ユーザの音声の属するサービスドメインに基づいて、ユーザの音声から対話作用(dialogue act)、主作用(main action)および構成要素(component slot)(または、個体名)を抽出する。
ここで、対話作用は、文章の形態に関連する分類基準として、当該文章が叙述部(Statement)、要求文(Request)または疑問文(Question)であるかを示すものである。
主作用は、当該発話が特定ドメインで対話を通じて所望の行為を示す意味的情報である。例えば、放送サービスドメインで、主作用はテレビ電源オン/オフ、放送番組検索、放送番組時間検索、放送番組予約等を含んでよい。別の例として、機器制御ドメインで、主作用は機器電源オン/オフ、再生、一時停止等を含んでよい。
構成要素は、発話に示される特定ドメインに対する個体情報、すなわち、特定ドメインで意図する行動の意味を具体化するために与えられる情報である。例えば、放送サービスドメインにおいて、構成要素はジャンル、放送番組名、放送時間、チャネル名、俳優の名前等を含んでよく、機器制御サービスドメインにおいて構成要素は、外部機器名称、製造元等を含んでよい。
そして、制御部330は、抽出された対話作用、主作用および構成要素を用いてユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送することができる。
ここで、応答情報は、ディスプレイ装置100から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されたものとして、ディスプレイ装置100は第2サーバ300から受信された応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを出力することができる。
そのために、制御部330は、判断された発話意図に対する回答を保存部320から抽出し、抽出された回答をテキストに変換して応答メッセージ情報を生成することができる。
なお、応答情報はユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令はユーザの音声に対応する機能を行うようにディスプレイ装置100を制御するための制御命令またはユーザの音声に対応する機能を行うように、外部機器400を制御するための制御命令を含んでよい。
そのために、制御部330は判断された発話意図に対応する制御命令を保存部320から抽出してディスプレイ装置100に伝送するように制御することができる。
以下では、制御部330がユーザの音声に対応する応答情報を生成するより具体的な方法を例えて説明する。
まず、制御部330は、ユーザの音声とマッチする例文またはユーザの音声と統計的に類似すると判断された例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用および構成要素を抽出し、ユーザの音声に対応する応答情報を生成してディスプレイ装置100に伝送することができる。
例えば、ディスプレイ装置100からテキスト“○○○(放送番組名)は何時から?”が受信された場合を仮定する。
この場合、制御部330は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○○○(放送番組名)は何時から?”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”には例文を解釈するための情報として、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○○○(放送番組名)は何時から?”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は○○○(放送番組名)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○○○”に対する“放送時間”を“問い合わせる”ものと判断することができる。
なお、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。
すなわち、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答である“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をユーザの音声に対応する回答として検索する。
この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。
例えば、制御部330は、“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”のような回答で、ブランク<放送番組名>は放送番組名である“○○○(放送番組名)”を載せることができる。そして、制御部330は、EPG(Electronic Program Guide)情報を通じて“○○○(放送番組名)”の放送時間を検索し、検索された放送時間を別のブランクである<放送時間>に載せることができる。それにより、制御部330は、“お問い合わせの○○○の放送時間は土曜日の7時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。
別の例として、ディスプレイ装置100からテキスト“○番(チャネル番号)に変えて”が受信された場合を仮定する。
この場合、制御部330は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○番(チャネル番号)に変えて”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”には例文を解釈するための情報として、“○(チャネル番号)”はチャネル番号を示し、“変え”は放送選局命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○番(チャネル番号)に変えて”の対話作用は要求文であり、主作用は放送選局命令であり、構成要素は○番(チャネル番号)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○番”に対する“放送選局”を“要求する”ものと判断することができる。
なお、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。
すなわち、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされた回答である“<チャネル番号>にチャネルを変更しました”をユーザの音声に対応する回答として検索する。
この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。
例えば、制御部330は、“<チャネル番号>にチャネルを変更しました”のような回答で、ブランク<チャネル番号>はチャネル番号である“○番(チャネル番号)”を載せることができる。それにより、制御部330は、“○番にチャネルを変更しました”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
なお、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされた制御命令を保存部320から検索し、タグ付けされた制御命令をディスプレイ装置100に伝送するように制御することができる。すなわち、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされたディスプレイ装置100のチャネルを○番に変更するための制御命令をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、○番にチャネルを変更し、第2サーバ300から受信された応答メッセージ情報に基づいて、“○番にチャネルを変更しました”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。
別の例として、ディスプレイ装置100からテキスト“○○(機器名称)の電源を切って”が受信された例を仮定する。
この場合、制御部330は、受信されたテキストが機器制御ドメインに属すると判断し、機器制御ドメイン内で受信されたテキストとマッチする例文である“○○(機器名称)の電源を切って”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”には例文を解釈するための情報として、“○○(機器名称)”は機器名称を示し、“電源”、“切っ”は電源オフ命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○○(機器名称)の電源を切って”の対話作用は要求文であり、主作用は電源オフ命令であり、構成要素は○○(機器名称)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○○(機器名称)”に対する“電源オフ”を“要求する”ものと判断することができる。
なお、制御部330は、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。
すなわち、制御部330は、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた回答である“<機器名称>の電源をオフにしました”をユーザの音声に対応する回答として検索する。
この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。
例えば、制御部330は、“<機器名称>の電源をオフにしました”のような回答で、ブランク<機器名称>に“○○(機器名称)”を載せることができる。それにより、制御部330は、“<機器名称>の電源をオフにしました”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
なお、制御部330は、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた制御命令を保存部320から検索し、タグ付けされた制御命令をディスプレイ装置100に伝送するように制御することができる。すなわち、制御部330は、機器制御メインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた○○(機器名称)の電源をオフさせるための制御命令をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、○○(機器名称)を有する外部機器400の電源をオフさせ、第2サーバ300から受信された応答メッセージ情報に基づいて、“○○(機器名称)の電源をオフにしました”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。
一方、制御部330は、ユーザの音声と統計的に類似するものとして、例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。
例えば、ディスプレイ装置100からテキスト“△△△(放送番組名)は何時から?”が受信された場合を仮定する。
この場合、制御部330は、テキスト“△△△(放送番組名)は何時から?”は、放送サービスドメイン内に保存された例文である“○○○(放送番組名)は何時から?”と統計的に類似すると判断することができる。それにより、制御部330は、放送サービスドメイン内に保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”には例文を解釈するための情報として、“〜は何時から?”の前の部分には、放送番組に関連する単語が配置されるという情報がタグ付けされている。よって、制御部330は、放送番組に関連する単語である放送番組名、出演者、演出者等のうち、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索する。
そのために、保存部320は、各サービスドメイン別に構成要素に対する情報を保存する個体名辞書またはTIMEX辞書等を含んでよい。
すなわち、制御部330は、個体名辞書またはTIMEX辞書等を参照して、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索し、“△△△(放送番組名)”が放送番組名を表す単語であると判断することができる。
ただ、それは一例に過ぎず、制御部330は、EPG情報等を用いて、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索することもでき、予め保存された例文とCRF(Conditional Random Field)を用いて、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索することもできる。
それにより、制御部330は、ディスプレイ装置100から受信されたテキスト“△△△(放送番組名)は何時から?”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は△△△(放送番組名)であると判断することができる。そして、制御部330は、ユーザの音声に含まれた発話意図は、“△△△”に対する“放送時間”を“問い合わせる”ことと判断することができる。
なお、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答を用いて、“△△△(放送番組名)は何時から?”に対する応答メッセージ情報を生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
すなわち、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答である“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をユーザの音声に対応する回答として検索する。そして、制御部330は、“お問い合わせの△△△(放送番組名)の放送時間は水曜日の11時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
一方、制御部330は、ディスプレイ装置100で応答メッセージの一部の文章データを保存している場合、当該文章を完成させるための一部のテキストのみをディスプレイ装置100に伝送するように制御することができる。
例えば、ディスプレイ装置100に“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”のような回答が予め保存されている場合、制御部330は、ディスプレイ装置100に保存された回答を完全な形の文章で構成するために、ユーザが問い合わせる放送番組名およびその放送時間をテキスト形態のディスプレイ装置100に伝送するように制御することができる。この場合、制御部330は、ディスプレイ装置100に予め保存された回答を出力するための別途の制御信号をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信されたテキストを予め保存された回答に載せて“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を応答メッセージとして出力することができる。
一方、上述の実施形態において、制御部330は例文にタグ付けされた情報を用いて対話作用、主作用および構成要素を抽出するものとして説明してきたが、それは一例に過ぎない。すなわち、制御部330は、ユーザの音声からMaxEnt(Maximum Entropy Classfier)を用いて対話作用、主作用を抽出し、CRF(Condition Random Fields)を用いて構成要素を抽出することもできる。
しかし、これらの実施形態に限定されるわけではなく、制御部330は既に公知となった多様な方式を通じてユーザの音声から対話作用、主作用および構成要素を抽出することもできる。
一方、制御部330は、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声を参照して、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。すなわち、制御部330は、現在受信されたユーザの音声をコーパスデータベースに保存された対話パターンと比較して、現在受信されたユーザの音声が対話パターンで、最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照して現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。
例えば、“○○○(放送番組名)は何時から?”というユーザの音声が入力された後、“何時から?”というユーザの音声が入力された場合を仮定する。この場合、制御部330は、“何時から?”というユーザの音声が放送サービスドメイン内で最初のユーザ発話に該当しないと判断されると、以前に受信された“○○○(放送番組名)は何時から?”というユーザ音声に基づいて、“何時から?”の発話意図を判断することができる。すなわち、制御部330は、構成要素を抽出することができない“何時から?”というユーザ音声の発話意図を判断するために、以前に受信されたユーザ音声に含まれた“○○○(放送番組名)”を用いて“何時から?”の発話意図を“○○○”に対する“番組の開始時間”を“問い合わせる”ことと判断することができる。
一方、図1ないし図4において、ディスプレイ装置100は、第2サーバ300から受信された応答情報に応じてユーザの音声に対応する応答メッセージを出力したり、特定機能を行うものとして説明したが、それは一例に過ぎない。ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を用いて、ユーザの音声に対応する応答メッセージを出力したり特定機能を行うこともできる。
以下では、図4を参照して、より具体的に説明する。
保存部180は、第1サーバ200から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存することができる。すなわち、第2サーバ300の保存部320のように、保存部180は各サービスドメイン別に複数の例文および各例文に対する回答を保存することができる。このとき、保存部140は、例文を解釈するための情報および例文に対応する回答、制御命令をタグ付けして保存することができる。
制御部150は、保存部180に保存された例文および例文にタグ付けされた情報を用いてユーザの音声に対応する応答情報を生成し、生成された応答情報に基づいてユーザの音声に対応する応答メッセージを出力したり、ユーザの音声に応じてディスプレイ装置100または外部機器400の機能を行うように制御することができる。この場合、制御部150は、第2サーバ300に対する説明部分で説明した方法と同様の方法を用いることができる。
図7は、本発明の別の実施形態に係る対話型システムを説明するための図である。図7に示すように、対話型システム1000’は、ディスプレイ装置100と、第1サーバ200と、第2サーバ300と、外部機器400および外部サーバ500を含む。図7の対話型システムは、別途の外部サーバ500を更に具備することにおいてのみ、図1の対話型システムと相違しているため、図1ないし図6と重複する内容に対する具体的な説明は省略する。ただ、第2サーバ300の動作に対しては、図6に示すブロック図を参照して説明する。
第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報に基づいてユーザの音声に対する発話意図を判断し、判断された発話意図による応答情報を生成してディスプレイ装置100に伝送する。この場合、第2サーバ300は、外部サーバ500から受信された検索情報を用いて応答情報を生成することができる。
ここで、応答情報を生成することができない場合は、検索された回答に含まれたブランクを完成することができない場合を含んでよい。
この場合、第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報そのものを外部サーバ500に伝送してテキスト情報に対応する検索情報を外部サーバ500から受信し、検索情報に基づいて応答情報を生成することができる。
なお、第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報から一定のキーワードを抽出し、外部サーバ500に伝送することもできる。例えば、“ソウルの気温はどう?”というテキストからキーワードは“ソウル”、“気温”であってよく、第2サーバ300は、サービスドメイン別に一定のキーワードを保存していてよい。
外部サーバ500は、第2サーバ300から受信されたテキスト情報またはテキスト情報から抽出されたキーワードに基づいて、検索情報を生成し、それを第2サーバ300に伝送する。具体的に、外部サーバ500は、多様な情報を保存するウェブサーバで実現され、テキスト情報またはテキスト情報から抽出されたキーワードに対するウェブ検索を行い、検索された結果を第2サーバ300に伝送することができる。
それにより、第2サーバ300は、外部サーバ500から受信された検索結果を用いて検索された回答に含まれたブランクを完成して応答情報を生成し、生成された応答情報をディスプレイ装置100に伝送することができる。
例えば、ディスプレイ装置100から“○○(地域名称)の天気はどう?”というテキストを受信すると、制御部330は、ユーザの音声に含まれた発話意図は“○○(地域名称)”に対する“天気”を“問い合わせる”ものと判断し、“お問い合わせの<地域名称>の天気は<天気情報>です”を回答として検索することができる。
この場合、制御部330は、検索された回答で、ブランク<地域名称>は地域名称である“○○(地域名称)”を載せることができる。ただ、別のブラック<天気情報>を完成するために、制御部330は、受信されたテキスト情報またはテキスト情報から抽出されたキーワードを外部サーバ500に伝送することができる。ここで、キーワードは、“○○(地域名称)”および“天気”であってよい。それにより、外部サーバ500は、○○(地域名称)に対する天気情報を検索することができる。
ここで、制御部330は、外部サーバ500から検索結果が受信されると、受信された検索結果を用いてユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。上述の例において、外部サーバ500から検索結果として、○○(地域名称)に対する天気が25℃であることが受信されると、制御部330は、“お問い合わせの○○(地域情報)の天気は25℃です”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて、“お問い合わせの○○(地域名状)の天気は25℃です”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。
図8は、図7に示す対話型システムの各動作を説明するためのタイミング図である。一方、第2サーバ300の具体的な構成は、図6に示すものと同様であるため、第2サーバ300の動作に対しては、図6に示すブロック図を参照して説明する。なお、図8において、ステップS510ないしS514は、図2のS10ないしS50と同様であることから、繰り返し説明は省略する。
第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報に基づいて、ユーザの音声に対する発話意図を判断し、判断された発話意図による応答情報を生成することができるか否かを判断する(S515)。
具体的に、制御部330は、ディスプレイ装置100から受信されたテキスト情報に基づいて、ユーザの音声の属するサービスドメインを判断し、サービスドメインに基づいてユーザの音声に対応する発話意図を判断する。そして、制御部330は、判断された発話意図に対応する回答を保存部310に具備されたコーパスデータベースから抽出する。それに対しては、図1ないし図6とともに上述している。
この後、制御部330は、抽出された回答を用いて応答メッセージ情報を生成する。
この場合、抽出された回答が完成した文章形態ではなく、予め保存された情報を用いて抽出された回答を完成させることができないと、制御部330は発話意図による応答情報を生成することができないと判断する。
例えば、収集された“○○○(放送番組名)は何時から?”というユーザの音声に対する発話意図が“○○○”に対して“番組の開始時間”を“問い合わせる”ものとして判断し、それによる回答として“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”が抽出された場合を仮定する。この場合、制御部330は、EPG情報を用いて“お問い合わせ○○○(放送番組名)の放送時間は土曜日の7時からです”という応答メッセージ情報を生成する。
別の例として、収集された“○○(地域名称)の天気はどう?”というユーザの音声に対する発話意図が“○○(地域名称)”に対する“天気”を“問い合わせる”ものとして判断され、それによる回答として“お問い合わせの<地域名称>の天気は<天気情報>です”が抽出された場合を仮定する。この場合、第2サーバ300には、○○(地域名称)に対する天気情報が予め保存されていないため、予め保存されている情報を用いて抽出された回答を完成させることができない。このように、予め保存された情報を用いて完成した文章形態の応答メッセージ情報を生成することができない場合、制御部330は発話意図による応答情報を生成することができないと判断する。
この場合、第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報を外部サーバ500に伝送する。そのために、通信部310は、外部サーバ500と通信を行うことができる。
具体的に、制御部330は、発話意図による応答情報を生成することができない場合、すなわち、予め保存された情報を用いて抽出された回答を完成させることができない場合、ディスプレイ装置100から受信されたテキスト情報を外部サーバ500に伝送するように通信部310を制御する。すなわち、上述の例において、制御部330は“○○(地域名称)の天気はどう?”というテキスト情報を外部サーバ500に伝送するように制御する。
なお、制御部330は、ディスプレイ装置100から受信されたテキスト情報からキーワードを抽出し、通信部310を通じて抽出されたキーワードを外部サーバ400に伝送することもできる。
そのために、保存部320は、テキスト情報から抽出される各種キーワードに対する情報を保存することができる。具体的に、保存部320は、サービスドメイン別に予め定義されたキーワードを保存することができる。例えば、情報提供サービスドメインに対しては、地域名称、気温、雨、雪、確率等のような天気関連のキーワードをマッチさせて保存し、放送サービスドメインに対しては、番組名、主演俳優、シンガー、曲名等のような放送関連のキーワードをマッチさせて保存することができる。
例えば、“○○(地域名称)の天気はどう?”というユーザの音声は情報提供サービスドメインに属するため、制御部330は、テキスト情報から“ソウル”、“天気”のようなキーワードを検出し、外部サーバ500に伝送するように制御することができる。
外部サーバ500は、検索情報を生成し(S517)、生成された検索情報を第2サーバ300に伝送する。具体的に、外部サーバ500はウェブサーバで実現され、第2サーバ300から受信されたテキスト情報またはキーワードに対するウェブ検索を行い、ウェブ検索結果を検索情報として生成することができる。
上述の例のように、外部サーバ500は“○○(地域名称)の天気はどう?”というテキストまたは“○○(地域名称)”、“天気”のようなキーワードが第2サーバ300から受信されると、当該情報を用いてウェブ検索を行い、それによって検索された○○(地域名称)の天気に対する情報を第2サーバ300に伝送することができる。
一方、第2サーバ300は、外部サーバ500から検索情報が受信されると、応答情報を生成し(S519)、生成された応答情報をディスプレイ装置100に伝送することができる。
具体的に、制御部330は、検索情報を用いてユーザの音声に対応する応答情報を生成することができる。すなわち、制御部330は、検索情報を用いて抽出された回答を完全な形に再構成して応答メッセージ情報を生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
すなわち、上述の例において、外部サーバ400から○○(地域名称)の天気が25℃である検索情報が受信されると、制御部330は検索情報に基づいて“お問い合わせの○○(地域名称)の天気は25℃です”という応答メッセージ情報を生成してディスプレイ装置100に伝送するように制御することができる。
一方、ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいてユーザ音声に対応する動作を行う。上述の例において、ディスプレイ装置100は第2サーバ300から受信される応答メッセージ情報に基づいて、“お問い合わせの○○(地域名称)の天気は23℃です”という応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力することができる。それについては、図1ないし図6を参照して説明している。
一方、図1ないし図8において、第1サーバ200と第2サーバ300とを含む一つのサーバを対話型サーバと称してよい。ただ、図1ないし図8においては、第1サーバ200と第2サーバ300とが別途に実現されるものとして説明したが、それは一例に過ぎない。すなわち、第1サーバ200と第2サーバ300とは、一つのサーバで実現されてよく、この場合、第1サーバ200と第2サーバ300とが一つのサーバで実現されたものを対話型サーバと称してよい。
この場合、ディスプレイ装置100は、ユーザの音声に対応するテキスト情報を受信せず、一つで実現されたサーバ(図示せず)においてユーザの音声をテキストに変換し、変換されたテキストに基づいてユーザの音声に対応する応答情報を生成してディスプレイ装置100に伝送することができる。
図9ないし図11は、本発明の一実施形態に係る対話型システムの動作を説明するための図である。
例えば、図9の(a)および(b)に示すように、特定放送番組を視聴していたユーザ600が“○○○(放送番組名)は何時から?”と発話した場合を仮定する。
この場合、ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいて“○○○(放送番組名)は何時から?”に対する応答メッセージを出力することができる。具体的に、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて、“○○○(放送番組名)は何時から?”に対する応答メッセージとして、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を音声で出力するか、画面上にテキストで出力することができる。
一方、図10の(a)に示すように、特定放送番組を視聴していたユーザ600は“○番(チャネル番号)に変えて”と発話した場合を仮定する。
この場合、図10の(b)および(c)のように、ディスプレイ装置100は第2サーバ300から受信された応答情報に基づいて“○番(チャネル番号)に変えて”に対応する応答メッセージを出力し、チャネル変更を行うことができる。
具体的に、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて“○番(チャネル番号)に変えて”に対する応答メッセージとして、“○番(チャネル番号)にチャネルを変更しました”を音声で出力するか、画面上にテキストで出力することができる。そして、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、○番(チャネル番号)にチャネルを変更することができる。
例えば、図11の(a)に示すように、DVDプレーヤを視聴していたユーザ600が“DVDプレーヤの電源を切って”と発話した場合を仮定する。
この場合、図11の(b)および(c)のように、ディスプレイ装置100は第2サーバ300から受信された応答情報に基づいて“DVDプレーヤの電源を切って”に対する応答メッセージを出力し、DVDプレーヤ400の電源をオフにさせることができる。
具体的に、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて“DVDプレーヤの電源を切って”に対する応答メッセージとして、“DVDプレーヤの電源をオフにしました”を音声で出力するか、画面上にテキストで出力することができる。そして、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、DVDプレーヤの電源をオフにさせることができる。
図12は、本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。
まず、ユーザの音声を収集する(S710)。具体的に、ディスプレイ装置と一体型をなすか、分離された形のマイクを通じて、ユーザ音声を収集することができる。
その後、ユーザの音声を第1サーバに伝送し(S720)、第1サーバからユーザの音声に対応するテキスト情報を受信する(S730)。具体的に、STTアルゴリズムを通じてテキストに変換されたユーザの音声を第1サーバから受信することができる。
続いて、受信されたテキスト情報を第2サーバに伝送し(S740)、テキスト情報に対応する応答情報が第2サーバから受信する(S750)。ここで、応答情報はディスプレイ装置から応答メッセージを抽出するための応答メッセージ情報を含む。即ち、ユーザの音声に対応する応答メッセージがテキスト形式で表現された応答メッセージ情報を第2サーバから受信してよい。
そして、応答情報に基づいてユーザの音声に対応する応答メッセージを出力する(S760)。具体的に、応答テキスト情報に基づいて、ユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。
一方、応答情報は、ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。それにより、ディスプレイ装置は、ユーザの音声に対応する応答メッセージを出力するだけでなく、ユーザの音声に対応する特定機能を行うことができるようになる。
そして、第2サーバは、受信されたテキスト情報に基づいてユーザ音声に対する発話意図を判断し、判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて応答情報を生成することができる。すなわち、第2サーバは判断された発話意図による応答情報を生成することができない場合、テキスト情報を外部サーバに伝送する。それにより、外部サーバはテキスト情報に基づいて検索情報を生成して第2サーバに伝送し、第2サーバは検索情報を用いて応答情報を生成してディスプレイ装置に伝送することができる。
なお、本発明に係る制御方法を順次行うプログラムが保存された非一時的な読み取り可能な媒体(Non−transitory computer readable medium)が提供されてよい。
非一時的な読み取り可能な媒体とは、レジスタやキャッシュ、メモリ等のような短い間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り(Reading)が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、CDやDVD、ハードディスク、ブルーレイディスク、USB、メモリカード、ROM等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。
なお、ディスプレイ装置および遠隔制御装置に対して示した上述のブロック図では、バス(Bus)を示していないが、ディスプレイ装置および遠隔制御装置で各構成要素間の通信はバスによって行われてよい。なお、各デバイスには、上述の多様なステップを行うCPU、マイクロプロセッサ等のようなプロセッサが更に含まれてよい。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

Claims (10)

  1. ディスプレイ装置において、
    音声および映像のうち少なくとも一方を出力する出力部と、
    ユーザの音声を収集する音声収集部と、
    前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、
    前記受信されたテキスト情報を第2サーバに伝送する第2通信部と、
    前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するように前記出力部を制御する制御部と
    を含むディスプレイ装置。
  2. 前記応答情報は、
    前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、
    前記制御部は、
    前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で、前記出力部を介して出力することを特徴とする請求項1に記載のディスプレイ装置。
  3. 前記応答情報は、
    前記ディスプレイ装置の機能を制御するための制御命令を更に含むことを特徴とする請求項2に記載のディスプレイ装置。
  4. 前記第2サーバは、
    前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成することを特徴とする請求項1に記載のディスプレイ装置。
  5. ディスプレイ装置の制御方法において、
    ユーザの音声を収集するステップと、
    前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、
    前記受信されたテキスト情報を第2サーバに伝送するステップと、
    前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するステップと
    を含む制御方法。
  6. 前記応答情報は、
    前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、
    前記出力するステップは、
    前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力することを特徴とする請求項5に記載の制御方法。
  7. 前記応答情報は、
    前記ディスプレイ装置の機能を制御するための制御命令を更に含むことを特徴とする請求項6に記載の制御方法。
  8. 前記第2サーバは、
    前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成することを特徴とする請求項5に記載の制御方法。
  9. 第1サーバと、第2サーバおよび前記第1サーバと前記第2サーバとを連動するディスプレイ装置を含む対話型システムにおいて、
    前記ディスプレイ装置からユーザ音声が受信されると、前記ユーザ音声に対応するテキスト情報を前記ディスプレイ装置に伝送する第1サーバと、
    前記ディスプレイ装置から前記テキスト情報が受信されると、前記テキスト情報に対応する応答情報を前記ディスプレイ装置に伝送する第2サーバと、
    前記第2サーバから前記応答情報が受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するディスプレイ装置と
    を含む対話型システム。
  10. 前記応答情報は、
    前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、
    前記ディスプレイ装置は、
    前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力することを特徴とする請求項9に記載の対話型システム。
JP2013077303A 2012-06-27 2013-04-03 ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム Pending JP2014010449A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2012-0069310 2012-06-27
KR20120069310 2012-06-27
KR1020120146343A KR101309794B1 (ko) 2012-06-27 2012-12-14 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
KR10-2012-0146343 2012-12-14

Publications (1)

Publication Number Publication Date
JP2014010449A true JP2014010449A (ja) 2014-01-20

Family

ID=49456384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013077303A Pending JP2014010449A (ja) 2012-06-27 2013-04-03 ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム

Country Status (9)

Country Link
US (1) US20140006022A1 (ja)
EP (2) EP2680596A1 (ja)
JP (1) JP2014010449A (ja)
KR (2) KR101309794B1 (ja)
CN (1) CN103516711A (ja)
BR (1) BR112014032094A2 (ja)
MX (1) MX2014014671A (ja)
RU (1) RU2015102291A (ja)
WO (1) WO2014003283A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157204A (ja) * 2016-03-04 2017-09-07 株式会社リコー インタラクティブ・ホワイトボード機器の音声制御
KR20180088927A (ko) * 2016-01-05 2018-08-07 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
JP2019195221A (ja) * 2018-09-30 2019-11-07 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体
JP2020008854A (ja) * 2018-07-03 2020-01-16 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声要求を処理するための方法および装置
WO2022004392A1 (ja) * 2020-06-30 2022-01-06 ソニーグループ株式会社 対話装置、対話方法及び対話プログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9530410B1 (en) 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
KR102158315B1 (ko) 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102460927B1 (ko) * 2013-11-12 2022-10-31 삼성전자 주식회사 음성인식 시스템, 음성인식 서버 및 디스플레이장치의 제어방법
KR102246893B1 (ko) * 2013-12-11 2021-04-30 삼성전자주식회사 대화형 시스템, 이의 제어 방법, 대화형 서버 및 이의 제어 방법
KR102128025B1 (ko) * 2014-04-30 2020-06-29 현대엠엔소프트 주식회사 음성인식 기반의 네비게이션 시스템 제어 방법
KR102248745B1 (ko) * 2014-08-29 2021-05-07 삼성전자주식회사 디스플레이 장치, 서버, 및 콘텐츠 제공 방법
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
KR102298767B1 (ko) 2014-11-17 2021-09-06 삼성전자주식회사 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
KR101595090B1 (ko) * 2015-04-30 2016-02-17 주식회사 아마다스 음성 인식을 이용한 정보 검색 방법 및 장치
KR20170032114A (ko) * 2015-09-14 2017-03-22 삼성전자주식회사 음성 인식 장치 및 그의 제어방법
KR102558437B1 (ko) * 2015-11-27 2023-07-24 삼성전자주식회사 질의 응답 처리 방법 및 이를 지원하는 전자 장치
US10417021B2 (en) * 2016-03-04 2019-09-17 Ricoh Company, Ltd. Interactive command assistant for an interactive whiteboard appliance
US11074034B2 (en) * 2016-04-27 2021-07-27 Sony Corporation Information processing apparatus, information processing method, and program
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
US11134295B2 (en) * 2017-10-27 2021-09-28 Nagrastar Llc External module comprising processing functionality
KR102480570B1 (ko) * 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
WO2019135433A1 (ko) * 2018-01-08 2019-07-11 엘지전자 주식회사 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템
US10847176B2 (en) 2018-03-12 2020-11-24 Amazon Technologies, Inc. Detection of TV state using sub-audible signal
US10560737B2 (en) 2018-03-12 2020-02-11 Amazon Technologies, Inc. Voice-controlled multimedia device
KR101890704B1 (ko) * 2018-03-12 2018-08-22 미디어젠(주) 음성 인식과 언어 모델링을 이용한 간편 메시지 출력장치 및 출력방법
WO2019177949A1 (en) * 2018-03-12 2019-09-19 Amazon Technologies, Inc. Voice-controlled multimedia device
KR20190114321A (ko) * 2018-03-29 2019-10-10 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20210066644A (ko) * 2019-11-28 2021-06-07 삼성전자주식회사 단말 장치, 서버 및 그 제어 방법
CN111597808B (zh) * 2020-04-24 2023-07-25 北京百度网讯科技有限公司 仪表盘绘制处理方法、装置、电子设备和存储介质
KR102237832B1 (ko) * 2020-09-15 2021-04-09 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102420155B1 (ko) * 2020-09-15 2022-07-13 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102482457B1 (ko) * 2021-04-02 2022-12-28 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000236585A (ja) * 1999-02-15 2000-08-29 Nippon Telegr & Teleph Corp <Ntt> 機器制御方法及び装置並びに制御サーバ
JP2000259183A (ja) * 1999-03-10 2000-09-22 Sony Corp 情報提供システム、クライアント、情報提供サーバ及び情報提供方法
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002341880A (ja) * 2001-05-21 2002-11-29 Matsushita Electric Ind Co Ltd 音楽データ配信システム
JP2003091298A (ja) * 2001-06-06 2003-03-28 Matsushita Electric Ind Co Ltd 音声認識及び自然言語を用いる家庭活動の自動制御
JP2005037615A (ja) * 2003-07-18 2005-02-10 Omron Corp クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
JP2005072764A (ja) * 2003-08-21 2005-03-17 Hitachi Ltd 機器制御システムとそのための装置及び機器制御方法
JP2005267092A (ja) * 2004-03-17 2005-09-29 Mitsubishi Electric Corp 照応解析装置及びナビゲーション装置
JP2005284880A (ja) * 2004-03-30 2005-10-13 Nec Corp 音声認識サービスシステム
JP2008234427A (ja) * 2007-03-22 2008-10-02 Toshiba Corp ユーザ間の対話を支援する装置、方法およびプログラム
JP2010527467A (ja) * 2007-04-02 2010-08-12 グーグル・インコーポレーテッド 電話による要求への位置を基にした応答
JP2011199698A (ja) * 2010-03-23 2011-10-06 Yamaha Corp Av機器
JP2012123492A (ja) * 2010-12-06 2012-06-28 Fujitsu Ten Ltd 情報提供システムおよび情報提供装置
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
JP2013205524A (ja) * 2012-03-27 2013-10-07 Yahoo Japan Corp 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US5915238A (en) * 1996-07-16 1999-06-22 Tjaden; Gary S. Personalized audio information delivery system
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
US8209184B1 (en) * 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6345389B1 (en) * 1998-10-21 2002-02-05 Opentv, Inc. Interactive television system and method for converting non-textual information to textual information by a remote server
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20030093281A1 (en) * 1999-05-21 2003-05-15 Michael Geilhufe Method and apparatus for machine to machine communication using speech
US6934684B2 (en) * 2000-03-24 2005-08-23 Dialsurf, Inc. Voice-interactive marketplace providing promotion and promotion tracking, loyalty reward and redemption, and other features
JP2001318847A (ja) * 2000-05-11 2001-11-16 Sony Corp 更新通知システム、更新監視装置、携帯通信端末、情報処理装置、コンテンツ取得指示方法、コンテンツ取得方法及びプログラム格納媒体
US20020107918A1 (en) * 2000-06-15 2002-08-08 Shaffer James D. System and method for capturing, matching and linking information in a global communications network
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
TWI334703B (en) * 2004-09-02 2010-12-11 Inventec Multimedia & Telecom Voice-activated remote control system
CN101001294B (zh) * 2006-12-19 2010-10-06 中山大学 一种基于语音识别技术的智能化家居语音记录及提醒***
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US20090018841A1 (en) * 2007-07-12 2009-01-15 Leeds Marshall T Method and apparatus for remote playback of personalized and non-personalized audio messages
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US9867020B2 (en) * 2008-09-15 2018-01-09 Microsoft Technology Licensing, Llc Pre-determined responses for wireless devices
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
TW201106701A (en) * 2009-08-14 2011-02-16 Novatek Microelectronics Corp Device and method of voice control and related display device
US20110137976A1 (en) * 2009-12-04 2011-06-09 Bob Poniatowski Multifunction Multimedia Device
US8522283B2 (en) * 2010-05-20 2013-08-27 Google Inc. Television remote control data transfer
KR20120002737A (ko) * 2010-07-01 2012-01-09 삼성전자주식회사 마이크를 이용한 휴대용 단말기의 동작 제어 방법 및 장치
JP5824829B2 (ja) * 2011-03-15 2015-12-02 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US8954317B1 (en) * 2011-07-01 2015-02-10 West Corporation Method and apparatus of processing user text input information
US8611506B2 (en) * 2011-07-08 2013-12-17 Blackberry Limited Methods and apparatus to facilitate voicemail interaction

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000236585A (ja) * 1999-02-15 2000-08-29 Nippon Telegr & Teleph Corp <Ntt> 機器制御方法及び装置並びに制御サーバ
JP2000259183A (ja) * 1999-03-10 2000-09-22 Sony Corp 情報提供システム、クライアント、情報提供サーバ及び情報提供方法
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002341880A (ja) * 2001-05-21 2002-11-29 Matsushita Electric Ind Co Ltd 音楽データ配信システム
JP2003091298A (ja) * 2001-06-06 2003-03-28 Matsushita Electric Ind Co Ltd 音声認識及び自然言語を用いる家庭活動の自動制御
JP2005037615A (ja) * 2003-07-18 2005-02-10 Omron Corp クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
JP2005072764A (ja) * 2003-08-21 2005-03-17 Hitachi Ltd 機器制御システムとそのための装置及び機器制御方法
JP2005267092A (ja) * 2004-03-17 2005-09-29 Mitsubishi Electric Corp 照応解析装置及びナビゲーション装置
JP2005284880A (ja) * 2004-03-30 2005-10-13 Nec Corp 音声認識サービスシステム
JP2008234427A (ja) * 2007-03-22 2008-10-02 Toshiba Corp ユーザ間の対話を支援する装置、方法およびプログラム
JP2010527467A (ja) * 2007-04-02 2010-08-12 グーグル・インコーポレーテッド 電話による要求への位置を基にした応答
JP2011199698A (ja) * 2010-03-23 2011-10-06 Yamaha Corp Av機器
JP2012123492A (ja) * 2010-12-06 2012-06-28 Fujitsu Ten Ltd 情報提供システムおよび情報提供装置
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
JP2013205524A (ja) * 2012-03-27 2013-10-07 Yahoo Japan Corp 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10939185B2 (en) 2016-01-05 2021-03-02 Gracenote, Inc. Computing system with channel-change-based trigger feature
KR102332800B1 (ko) * 2016-01-05 2021-12-01 로쿠, 인코퍼레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
KR20200123264A (ko) * 2016-01-05 2020-10-28 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
KR102210075B1 (ko) * 2016-01-05 2021-02-02 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
KR102169466B1 (ko) * 2016-01-05 2020-10-26 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
KR20180088927A (ko) * 2016-01-05 2018-08-07 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
KR20200049893A (ko) * 2016-01-05 2020-05-08 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
KR102107499B1 (ko) * 2016-01-05 2020-05-29 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
US11778285B2 (en) 2016-01-05 2023-10-03 Roku, Inc. Computing system with channel-change-based trigger feature
JP2019503139A (ja) * 2016-01-05 2019-01-31 グレースノート インコーポレイテッド チャンネル変更に基づいたトリガフィーチャを有するコンピューティングシステム
KR20210013651A (ko) * 2016-01-05 2021-02-04 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
JP2019049985A (ja) * 2016-03-04 2019-03-28 株式会社リコー インタラクティブ・ホワイトボード機器の音声制御
JP2017157204A (ja) * 2016-03-04 2017-09-07 株式会社リコー インタラクティブ・ホワイトボード機器の音声制御
JP2020008854A (ja) * 2018-07-03 2020-01-16 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声要求を処理するための方法および装置
US11282519B2 (en) 2018-09-30 2022-03-22 Baidu Online Network Technology (Beijing) Co., Ltd. Voice interaction method, device and computer readable storage medium
JP7227866B2 (ja) 2018-09-30 2023-02-22 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体
JP2019195221A (ja) * 2018-09-30 2019-11-07 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体
WO2022004392A1 (ja) * 2020-06-30 2022-01-06 ソニーグループ株式会社 対話装置、対話方法及び対話プログラム

Also Published As

Publication number Publication date
MX2014014671A (es) 2015-03-06
EP2919472A1 (en) 2015-09-16
US20140006022A1 (en) 2014-01-02
WO2014003283A1 (en) 2014-01-03
BR112014032094A2 (pt) 2017-08-01
CN103516711A (zh) 2014-01-15
KR20140001105A (ko) 2014-01-06
EP2680596A1 (en) 2014-01-01
RU2015102291A (ru) 2016-08-20
KR101309794B1 (ko) 2013-09-23

Similar Documents

Publication Publication Date Title
KR101309794B1 (ko) 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
US20190333515A1 (en) Display apparatus, method for controlling the display apparatus, server and method for controlling the server
US9520133B2 (en) Display apparatus and method for controlling the display apparatus
US9230559B2 (en) Server and method of controlling the same
JP2014132465A (ja) ディスプレイ装置及びその制御方法
US20140195230A1 (en) Display apparatus and method for controlling the same
USRE47168E1 (en) Display apparatus, electronic device, interactive system, and controlling methods thereof
JP2014132464A (ja) 対話型インターフェース装置及びその制御方法
KR20180014137A (ko) 디스플레이 장치 및 그의 제어 방법
KR102160756B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR102091006B1 (ko) 디스플레이 장치 및 그의 제어 방법
KR20160022326A (ko) 디스플레이 장치 및 그의 제어 방법
KR20170038772A (ko) 디스플레이 장치 및 그의 제어 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141022

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150527

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150603

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20150703