JP6266330B2

JP6266330B2 - 遠隔操作システムならびにそのユーザ端末および視聴機器

Info

Publication number: JP6266330B2
Application number: JP2013258475A
Authority: JP
Inventors: 剣明呉; 加藤　恒夫; 恒夫加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2018-01-24
Anticipated expiration: 2033-12-13
Also published as: JP2015115879A

Description

本発明は、視聴者のモバイル端末（ユーザ端末）でTV、セット・トップ・ボックス（Set Top Box：STB）、カーナビまたはデジタルフォトフレームなどの視聴機器を遠隔操作するシステムならびにそのユーザ端末および視聴機器に係り、特に、キャラクタ対話型UIを用いることで操作対象端末の相違をユーザに意識させることなく統一的な方式で遠隔操作できる遠隔操作システムならびにそのユーザ端末および視聴機器に関する。

テレビなどの視聴機器を遠隔操作する装置として赤外線リモコンが一般に普及している。しかしながら、赤外線リモコンでは、その発光部が視聴機器の受光部に向いてない場合、受光部に蛍光灯などの強い照明光が当たっている場合、リモコンと視聴機器との間に障害物がある場合などに操作の反応が悪くなることがある。また、リモコンの高機能化につれて操作が煩雑になり、さらに視聴機器ごとにリモコンのボタン位置や操作方法が統一されていないので、複数台の視聴機器を操作するユーザには戸惑いが生じ得る。

一方、近年になって視聴機器へのWi-FiやBluetooth（登録商標）の搭載が進み、スマートフォンやタブレット端末などのユーザ端末との連携が実現可能となった。

特許文献１には、ユーザが発声した音声を認識し、視聴機器の制御コードに変換する技術が開示されている。

特許文献２には、Bluetooth（登録商標）通信方式を利用し、携帯電話と視聴機器との間でコンテンツの再生時刻を連動させる携帯リモコンによる再生技術が開示されている。

特許文献３には、視聴機器の画面領域を携帯電話と関連づけて記憶しておき、携帯電話から視聴機器に無線接続すると、割り当てられた画面領域を携帯リモコンから操作できる技術が開示されている。

特許文献４には、テレビや、ビデオプレイ、MACコンピュータ、タブレットなど、異なる機器に対して難しい操作をしなくても使えるユニバーサルリモコンの技術が開示されている。

特開2006-350221号公報特開2009-43309号公報特開2009-27485号公報 United States Patent Application No.20120019371

特許文献１では、リモコンに対して電源のON/OFF、再生、早送り等の音声を発話すると視聴機器を遠隔制御できるが、どの画面でどの操作を可能にするか、どの音声命令を発話すればよいか等はユーザが記憶しておく必要がある。

特許文献２、３では、Wi-FiやBluetooth（登録商標）などの無線通信方式を使って視聴機器をアプリケーションから遠隔操作できるが、視聴機器の同異にかかわらず統一的で簡単に操作できるUIの実現は困難である。

特許文献４は、ハードウェアからソフトウェア、オペレーティングシステムまで全体を統合的に開発する強みを持っているアップル社の技術であるが、特許文献２、３と同様に、視聴機器の同異にかかわらず統一的で簡単に操作できるUIの実現は容易ではない。実際にも、Apple TV操作用のiPhone（登録商標）版リモコンとiPad（登録商標）版リモコンのUIとには違いが多く存在し、ITリテラシの低いユーザにとっては戸惑いを感じる声もあった。

さらに、上記の各先行技術はいずれもリモコン操作の範疇に留まっており、多様な機器をいかに統一的で簡単に操作できるか、異なる視聴機器を跨いてユーザの生活習慣や好みを踏まえた機能・コンテンツ推薦がいかに実現できるか、などの課題を残している。

本発明の第１の目的は、ユーザと仮想的に対話する一のキャラクタを、操作対象機器の切り替えに応答して各機器のディスプレイ間で移動させ、キャラクタとの対話形式で遠隔操作を要求できるようすることで、ユーザが視聴機器の同異を意識させずに統一的な手法で各機器を遠隔操作できる遠隔操作システムを提供することにある。

本発明の第２の目的は、ユーザ端末に登録されているユーザプロファイルを、各視聴機器がユーザからの遠隔操作に応答する際の応答内容に反映させることで、各視聴機器がユーザの嗜好や生活習慣に適した応答を行える遠隔操作システムならびにそのユーザ端末および視聴機器を提供することにある。

上記の目的を達成するために、本発明は、ユーザ端末から操作対象の視聴機器へキャラクタをディスプレイ上で移動させてキャラクタ対話型UIにより遠隔操作する遠隔操作システムにおいて、以下の構成を具備した点に特徴がある。

(1)ユーザ端末が、ユーザの発声内容を理解する意味理解手段と、発声内容を視聴端末へ提供する手段とを具備し、

ユーザ端末および視聴機器が、端末同士を無線接続する無線通信手段と、ユーザの発声内容に基づいて応答内容を決定する対話応答手段と、応答内容に基づいて音声メッセージを出力する音声応答手段と、ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第１アニメーション制御手段と、キャラクタをユーザ端末からジャンプアウトさせて操作対象の視聴機器へジャンプインさせる第２アニメーション制御手段とを具備し、視聴機器がさらに、応答内容に基づいて視聴サービスを制御する制御手段を具備した。

(2)ユーザ端末がユーザプロファイルを蓄積する手段を具備し、対話応答手段は、ユーザプロファイルを反映して応答内容を決定するようにした。

(3)ユーザ端末は、キャラクタをジャンプインさせた視聴端末へ前記ユーザプロファイルを提供するようにした。

(4)視聴端末の対話応答手段は、ユーザ端末から提供されたユーザプロファイルを反映して応答内容を決定するようにした。

本発明によれば、以下のような効果が達成される。

(1)ユーザと仮想的に対話する一のキャラクタが、操作対象となる視聴機器の切り替えに応答して各機器のディスプレイ間を移動して操作対象機器のディスプレイ上に出現するので、ユーザは視聴機器にかかわらず、ディスプレイ上に表示されたキャラクタとの対話形式で遠隔操作を要求できる。したがって、ユーザに視聴機器の同異を意識させずに統一的な手法で各機器を遠隔操作させることができるようになる。

(2)キャラクタがユーザ端末から視聴機器へ移動する際に、ユーザの嗜好等を含むプロファイルも視聴機器へ通知されるので、各視聴機器では要求された遠隔操作にユーザプロファイルを反映して応答内容を決定できるようになる。

例えば、視聴中のTVチャネルを切り替える遠隔操作が検知された際、ユーザがスポーツ中継好きである旨のプロファイルが取得されていれば、スポーツ番組へのチャネル切り替えを提案し、または優先できるようになる。

本発明の概要を模式的に表現した図である。本発明を適用した遠隔操作システムの機能ブロック図である。図１の遠隔操作における図２の主要部の動作を示したシーケンスフローである。

以下、図面を参照して本発明の実施の形態について詳細に説明する。ここでは初めに、図１の模式図を参照しながら、本発明のキャラクタ対話型UIにより視聴機器をユーザ端末１と連動させて対話方式で遠隔操作する方法の概要について説明する。

ユーザ端末１（ここでは、スマートフォンを想定）において遠隔操作アプリケーション（以下、遠隔アプリと表現する）が起動されると、同図(a)に示したように、端末ディスプレイに女性を模したキャラクタが重畳表示される。遠隔アプリは、予め登録されているユーザの興味や嗜好等のプロファイル情報に基づいてTVの番組プログラムを検索し、ユーザの興味や嗜好に合致した番組プログラムが見つかると、例えば「○○君（ユーザ名）の好きなプロ野球中継の時間だよ」といった音声メッセージを合成して前記キャラクタから擬似的に発声させる。

ここで、ユーザが「つけて！」、「TV ON」、「この番組を見たい」などと発声すると、当該音声がユーザ端末１のマイクロフォンで検知されて音声認識部１０３へ転送され、認識結果が意味理解部１０４へ転送される。意味理解部１０４では、ユーザの発声内容が視聴機器２（ここでは、TVを想定）のスイッチをオン操作する遠隔操作要求と認識されるので、ユーザ端末１ではTV２をオン操作する遠隔制御用の信号が生成されてTV２へ送信される。

前記遠隔操作アプリはユーザに視聴推薦したプロ野球中継のチャンネルを把握しているので、ここでは、TV２に適合した「スイッチオン操作」および「チャンネル指定操作」の各制御信号が生成されてTV２へ送信される。

TV２では、図１(b)に示したように、前記各制御信号に応答してのスイッチがオンされ、かつチャンネルが指定チャンネルに切り替えられてプロ野球中継を含むメニュー画面が表示される。

さらに、前記キャラクタがユーザ端末１のディスプレイからジャンプアウトしてTV２のディスプレイへジャンプインし、このキャラクタ移動に同期して、制御対象がユーザ端末１からTV２へ切り替わる。このとき、前記ユーザプロファイルもユーザ端末１からTV２へ提供される。

ここで、ユーザが例えば「負けているな。他の番組は？」と発声すると、これがユーザ端末１のマイクロフォンにより検知されて音声認識が実行され、音声認識の結果がTV２へ転送される。TV２では、前記音声認識の結果に基づいて他の番組プログラムの推薦要求と判別されるので、前記提供されたユーザプロファイルに基づいて、ユーザの興味や嗜好に合致した他の番組プログラムが放送中であるか否かが番組表を参照することで判定される。

他のチャンネルでサッカーの試合を中継中であることが解ると、同図(c)に示したように、その開始時刻「７：３０」や内容「日本代表戦」が番組表から取得されて音声合成され、例えば「７：３０からサッカー日本代表戦だよ」という音声メッセージが前記キャラクタから発声される。

この音声メッセージに対して、ユーザが例えば「それにして」と応答すると、その音声がユーザ端末１のマイクロフォンにより検知されて音声認識が実行され、音声認識の結果がTV２へ転送される。TV２では、前記音声認識の結果に基づいてサッカー中継へのチャンネル切り替えが了承されたと認識されるので、チャンネルがサッカー中継のチャンネルへ切り替えられる。その結果、TV２のディスプレイには、同図(d)に示したように、野球中継に代えてサッカー中継が映し出されることになる。

その後、サッカーの試合が終了してTV番組の終了時間が近づくと、同図(e)に示したように、再びキャラクタが出現する。なお、TV番組再生中であっても、ユーザがキャラクタの名前、名称、愛称などを発生して呼び出すとキャラクタが出現する。ここで、ユーザが例えば「『やったね！おめでとう！』とツイートして」と発声すると、これがユーザ端末１のマイクロフォンにより検知されて音声認識が実行され、音声認識の結果がTV２へ転送される。

TV２では、前記音声認識の結果に基づいてツイート要求と認識されるので、操作対象をTV２からユーザ端末１に戻すべく、キャラクタがTV２のディスプレイ上からジャンプアウトすると同時にユーザ端末１のディスプレイ上へジャンプインする。

ユーザ端末１では、ツイート用のアプリケーションが起動されると共に前記メッセージが音声認識されてテキスト変換され、ツイート用アプリケーションのメッセージ入力フィールドに入力される。テキスト入力が完了すると、同図(f)に示したように、入力内容と共にキャラクタが表示され、入力内容の了承を得るためのメッセージとして、例えば「これでいい？」という音声メッセージが前記キャラクタから発声される。

この問い掛けに対して、ユーザが例えば「いいよ」と音声で応答すると、これがユーザ端末１のマイクロフォンにより検知されて音声認識され、了承と判定されれば前記スイートが所定のアドレスへ送信される。

なお、TVのスイッチをオフにしたい場合は、ユーザが「TVを閉じて」、「TV OFF」、「疲れたから今から寝るね」など発話すると、当該音声がユーザ端末１のマイクロフォンで検知されて音声認識部１０３へ転送され、認識結果が意味理解部１０４へ転送される。意味理解部１０４では、ユーザの発声内容が視聴機器２のスイッチをオフ操作する遠隔操作要求と認識されるので、ユーザ端末１ではTV２をオフ操作する遠隔制御用の信号が生成されてTV２へ送信される。

このように、本発明ではユーザ端末を含む複数種類の情報機器を一元的に操作・連携させるべく、動きを伴ってユーザと仮想的に対話する一のキャラクタを、操作対象機器の切り替えに応答して各種の情報と共に各機器のディスプレイ間で移動させて情報を伝えるというキャラクタ対話型UIを採用することにより、第１に、遠隔操作対象として選択されている機器をユーザが簡単に認識できるようになり、第２に、ユーザに操作対象機器の違いを意識させない統一的な操作性を実現している。

図２は、本発明の一実施例に係る視聴機器制御システムの主要部の構成を示したブロック図であり、ここでは、本発明の説明に不要な構成は図示が省略されている。本実施例では、視聴機器としてSTBに着目し、TV２がSTB３に接続され、ディスプレイ機能はTV３が担う一方、ディスプレイ機能以外の視聴機器機能はSTB３が担い、STB３をユーザ端末１と連動させて対話方式で遠隔操作する場合を例にして説明する。

ユーザ端末１において、ユーザプロファイル蓄積部１０１には、ユーザプロファイルとして、ユーザ端末に固有の端末ID（MACアドレスや携帯電話番号など）が記憶され、さらにユーザの属性情報として氏名、年齢、性別、趣味、嗜好、好みの番組、贔屓の俳優名などが記憶されている。

無線通信部１０２は、STB３の無線通信部３０１との間にWi-FiやBluetooth（登録商標）などによる無線接続を確立し、ユーザの発話を理解したテキスト、ユーザ端末に固有の端末ID、ユーザの氏名・年齢、ユーザの好みなどを含むプロファイル情報、キャラクタ対話型UIの実行データなどをSTB３へ無線送信する。

音声認識部１０３および意味理解部１０４は、マイクロフォン（図示省略）で検知された端末ユーザの音声を認識し、発話内容からユーザの要求を理解する。対話応答PF１０５は、端末ユーザに能動的に質問したり、端末ユーザからのリクエストに対する回答文を生成したりする。対話応答PF１０５の内部には、端末ユーザの日常生活の雑談対話パターンや状態遷移のテーブルが予め登録されている。

キャラクタ表示部１０６および音声合成部１０７は、擬人化されたキャラクタのアニメーション表示および音声合成による人間的で自然な会話を実現する。音声合成部１０７はさらに、前記対話応答PF１０５が生成した回答文などのテキストを音声に変換する機能も備える。

前記キャラクタ表示部１０６は、ディスプレイ上でキャラクタのアニメーションを応答内容に応じて制御する第１アニメーション制御部１０６ａおよびキャラクタをジャンプアウトおよびジャンプインさせる第２アニメーション制御部１０６ｂを含む。

STB３において、対話応答PF３０２は、キャラクタがユーザ端末１からSTB３に移動した後、端末ユーザに能動的に質問したり、端末ユーザからのリクエストに対する回答文を生成したりする。

当該対話応答PF３０２にも、ユーザ端末側と同様に、端末ユーザの日常生活の雑談対話パターンや状態遷移のテーブルが登録されているほか、前記ユーザとの対話から解析された視聴要求に対応づけられたSTB３の機器操作の制御コード（チャネル切替、音量調整、アプリ起動など）が登録されている。

キャラクタ表示部３０３および音声合成部３０４は、擬人化されているキャラクタのアニメーション表示および音声合成による人間的で自然な会話を実現する。音声合成部３０４はさらに、前記対話応答PFが生成した回答文などのテキストを音声に変換する機能を備える。

番組検索部３０５は、ユーザ端末１を識別し、当該ユーザ端末１のユーザ属性（端末ID、氏名、年齢、好み情報）に対応した各コンテンツのレイティング情報（視聴制限情報）を参照する。そして、視聴要求されたコンテンツのレイティング情報をユーザが満たしているか否かを判定し、満たしていれば当該コンテンツの再生を、例えばVOD (Video On Demand) サービス部３０６に対して許可する。レイティング情報には、２０歳未満の視聴を禁止するR20、１８歳未満の視聴を禁止するR18および１５歳未満の視聴を禁止するR15などがある。アプリ部３０７はYouTube（登録商標）やカラオケ、辞書などサードパティより提供されているアプリケーションを管理する。制御部３０８は、遠隔操作に基づいて視聴サービスを制御する

次いで、前記キャラクタ表示部１０６，３０３におけるキャラクタのアニメーション演出について説明する。

本実施例では、各機器が同様のキャラクタ表示、音声合成および対話応答の実行フレームワークを備える。効率的かつ継続的なキャラクタ移動・情報提示を実現するためには、キャラクタの実行に必要な3Dモデルファイル、モーションファイルおよび対話用のテキストファイルのみを転送すればよい。また、これらの転送データはテキストのフォーマットであるため送受信の遅延も少ない。

本実施例では、前記3DモデルファイルおよびモーションファイルにMiku Miku Dance（MMD：3DCGムービー製作ツール）のフォーマットを採用し、描画する際に、読み込まれたモーションファイルに3Dモデルファイルに紐づけると、さまざまな組み合わせの3DCGアニメーションを実現できる。この3Dモデルファイルは、3Dポリゴンモデラーソフトにより作成されており、ポリゴン単位で立体のObjectを生成・編集できる。

また、前記モーションファイルは、モーションキャプチャをするための専用機材・ソフトを用いて、実際に人間の動きのサンプリング情報を取り込んでテキストファイル化したものである。実際には、映画などのコンピュータアニメーションおよびゲームなどにおけるキャラクタの人間らしい動きの再現にもよく利用されている。このモーションファイルのデータは、前記3Dモデルファイルと同様のモデルの骨格、およびフレームごとの骨格・関節の差分情報を記述している。実行時に毎秒３０フレームずつ描画すれば、連続的に自然な動きを表現できる。

さらに、本実施例ではキャラクタにテキスト情報を発生させる音声合成に規則音声合成技術を利用している。モバイル端末では処理能力やメモリ容量に制限があり、また音声モデルのデータベース容量も十分に確保できないので、音声読み上げ機能の利用時には携帯電話回線等のネットワーク経由でサーバ側に処理してもらう必要ある。

そのために、本実施例では声質のデータをより小さくすることができるHMM音声合成方式を採用し、テキストと音声のデータを対にしたデータをHMMという統計モデルに与えることによってHMMの挙動を決めるパラメータを学習し、学習済のHMMにテキストデータを与えることで音声合成に必要なパラメータを生成する。

こうした軽量化技術により、本実施例では、処理能力やメモリ容量の不十分なSTB、スマホ・タブレット、車載器などでもテキストから自然な音声コンテンツを生成でき、リアルタイムの情報読み上げやナレーション作成が可能になる。

次いで、キャラクタ表示部１０６の第２アニメーション制御部１０６ｂによる複数のデバイス間(ユーザ端末・STB)でのキャラクタ移動表現について説明する。

本実施例では、キャラクタが一方のディスプレイAからジャンプアウトすると同時に他方のディスプレイBへジャンプインする、といった連続的なディスプレイ間移動を実現するために、２つのディスプレイA，Bを仮想的に１つの描画領域として扱っている。

例えば、ディスプレイAからキャラクタの一部（例えば、頭部）がジャンプアウトした時点でディスプレイBにはキャラクタの頭部だけが表示され、次いでディスプレイAから胴体がジャンプアウトするとディスプレイBには胴体がジャンプインする。

このようなキャラクタの同期は、ユーザ端末１のキャラクタ・ジャンプアウト演出とSTB３のキャラクタ・ジャンプイン演出とのモーションファイルのフレームを同期させることで実現できる。

ユーザ端末１において、キャラクタ・ジャンプアウト演出のモーションフレームを画面上に一枚ずつ描画しつつ、Syncコマンドを描画中のフレームIDと共にSTB３へ送信する。STB３はSyncコマンドを受信するとフレームIDを解析し、それに対応するキャラクタ・ジャンプイン演出のモーションフレームIDを用いてテレビの画面上に描画する。

次いで、キャラクタ移動の前後、ユーザ端末とSTBの機能動作について説明する。ユーザは日常的にユーザ端末１のディスプレイ上のキャラクタと対話し、ユーザ端末１はユーザからのテレビ視聴要求が検出されると、STB３に無線接続してキャラクタをTV２の画面にジャンプインさせる。このとき、ユーザ端末１がTV２のマイク（音声入力用）となり、ユーザの発話は音声認識、意味理解でテキストに変換され、STB３の対話応答PF３０２へ転送される。

その後、STB３の対話応答PF３０２はユーザの操作意図を推定し、キャラクタがビジュアル的なフィードバックおよび音声の返事をすると共にSTB３の機器操作を実行する。ユーザ端末１およびSTB３上に、同一または同等のキャラクタのビジュアルデータ・音声合成用モデルを格納するエンジンを構築したことで、ユーザ端末１とSTB３との間では、テキスト情報のみを受け渡すだけで横断的なキャラクタ対話型UIを実現できる。

次いで、ユーザ端１とSTB３との間で送受信される各種メッセージのパケット構造について説明する。本実施例では、TCP/IP Socket通信を利用することで機器同士が無線接続されている状態を想定し、パケットはHEADER，CMD，PARAM，END，SUMの各フィールドにより構成される。

HEADERには開始マークが登録される。CMDには実行命令（コマンド）が登録される。PARAMは複数のValueフィールドを含む。ENDには終了マークが登録される。SUMフィールドにはメッセージの整合性をチェックするためのチェックサムが登録される。

例えば、ユーザ端末１からSTB３へ送信される接続要求メッセージでは、CMDフィールドには「ユーザ検証」に対応したコマンドが登録され、PARAMフィールドにはユーザ属性（ここでは、名前、年齢および好み情報など）や端末IDが登録される。

また、ユーザの発話を意味理解したメッセージであれば、CMDフィールドには「制御コード」に対応したコマンド（ここでは、テレビの開閉、番組検索、チャンネル切替など）が登録され、PARAMフィールドには、ユーザ発話のキーワード、それぞれのキーワードの品詞（名詞、動詞、地名、俳優の名前など）、端末ID（ここでは、端末製造ID）が登録される。

例えば、番組を検索するコマンドを実行する際に、PARAMから解析したそれぞれのキーワードを用いて番組表を検索する。前記番組表の検索には、番組の内容、俳優、カテゴリなどの絞り検索が可能である。

次いで、対話応答PF１０５（３０２）の機能について説明する。対話応答PF１０５（３０２）は、対話シナリオに基づいてユーザとインタラクションを行うプラットフォームである。

対話シナリオは１つ以上の状態ノードから構成され、各状態ノードでそれぞれの対話パターンが実行される。例えば、最初の状態ノードでユーザがキャラクタに放送中の番組を聞くと、キャラクタがユーザの好みに応じた推薦を行って状態ノード２へ移る。状態ノード２において、ユーザが前記推薦された番組を見たいと発話すると、STB３の電源がオンされてキャラクタがユーザ端末１からTV２の画面上にジャンプウインして状態ノード3へ移る。

状態ノード３では、ユーザが番組の再生中に他のチャンネルの切り換えや、TV番組表の検索、VODコンテンツアプリ、YouTube（登録商標）やカラオケなどその他のアプリ３０７の起動などのコマンドが受け付けられる。ここで、例えばVODコンテンツアプリが起動されると状態ノード４へ移り、ユーザからの検索キーワードの発話に備えて待機する。

対話シナリオの状態ノードおよび各状態ノード間の遷移は、実際の視聴ユースケースの統計に基づき、状態ノード遷移図を作成したものである。ユーザの入力により正確に返答するため、多数のユーザの視聴関連の事例の収集から、まず汎用的かつ基本的な状態ノードと遷移ルールを作成する。そして、徐々に状態ノード、遷移ルールのパターン追加・修正の繰り返しにより、ユーザの多様な視聴操作に関連する対話精度を向上できる。

次いで、ユーザ属性に基づく視聴操作やコンテンツ推薦について説明する。STB３では、ユーザ端末１から送信された接続要求のメッセージが検知されると、当該メッセージから端末IDおよびユーザプロファイルが抽出されてメモリに記憶される。その後の対話でユーザから要求された視聴操作が規制対象であるか否かが判定され、音量調節や明るさ調整のようにレイティングと無関係な要求であれば、要求に応じた制御が実行される。

これに対して、要求がレイティングの設定されているコンテンツの視聴要求であれば、要求されたコンテンツのレイティングが番組表から読み込まれ、前記抽出された端末IDと対応付けられているユーザプロファイル（ここでは、年齢）とレイティング情報とが比較される。そして、ユーザ年齢が制限対象外であれば視聴が許可される一方、ユーザ年齢が制限対象であれば視聴が拒否される。

また、ユーザ端末１のユーザプロファイル蓄積部１０１には、当該ユーザの嗜好情報が蓄積されており、ユーザ端末１とSTB３との接続が確立されると、これらの嗜好情報がキャラクタ情報と共にSTB３へ転送され、番組検索やコンテンツ推薦に利用される。

ユーザの嗜好情報には、favoritetvprogram（好みの番組名）、favoritetvgenre（好みのカテゴリ）、favoritetetalent（好みの俳優名）、favoriteplace（好みの場所）、favaritesports（好みのスポーツ）などがあり、例えば以下のような情報が紐付けられている。
favoritetvprogram/笑っていいとも/スッキリ
favoritetvgenre/ニュース/ドキュメンタリー/アニメ
favoritetetalent/宮根誠司/AKB/船越英一郎
favoriteplace/東京/韓国
favaritesports/野球/ゴルフ

次いで、ユーザの多様な言い回しに対する意図推定方法について説明する。本実施例では、ユーザが発話したキーワードの簡単なマッチングではなく、対話の意図推定によりユーザの操作意図をより正確に捉える。

具体的には、意味理解部１０４は、発話を表す文字列を入力とし、意図スロットと呼ぶ意図を表すシンボルを出力する。意図スロットには各々、その意図に属すると想定される発話文を特徴ベクトルに変換したテンプレートを複数登録しており、入力の発話文字列を変換した特徴ベクトルと各テンプレートとの類似度を計算し、最も類似度の高いテンプレートが属する意図スロットを出力している。

具体的なアルゴリズムとして、発話文字列から類義語や数値表現を抽象化した内容語集合を抽出し、bag-of-words表現として、テンプレート辞書内で定義された内容語に対応する次元が非零となる、大きさ「１」の特徴ベクトルを作成する。この特徴ベクトルを用いて、テンプレート辞書内の各テンプレートとの類似度を計算し、最も類似度の高いテンプレートが属する意図スロットシンボルを意図推定結果として出力する。

次いで、ユーザ端末１によるSTB３の自動発見および自動接続の手順について説明する。一般的に、STB３のIPアドレスはCATVプロバイダもしくはローカルルータのDHCPにより取得されるために一意に特定することは難しい。そこで、本発明ではSTB３のIPアドレスがユーザ端末１に通知される仕組みを導入する。

本実施例では、ローカルネットワークに接続されたユーザ端末１がUDP経由でBroadcast探索を実行し、STB３は自分に割り当てられているIPアドレスおよび通信ポートを返信する。ユーザ端末１は、返信されたIPアドレスおよび通信ポート等の接続情報を用いてSTB3へ自動的に接続を要求する。これにより、端末ユーザはSTB３のIPアドレスを解析し、更には解析結果に基づいて手動接続する操作から解放される。

図３は、図１の遠隔操作における図２の主要部の動作を示したシーケンスフローであり、ユーザ端末１の意味理解部１０４において、TV２/STB３のスイッチをオン操作する音声信号が認識されると、時刻t1，t2では、電源ON信号が対話応答PF１０５から無線通信部１０２を経由してSTB３の無線通信部３０１へ送信される。時刻t3では、STB３の無線通信部３０１からユーザ端末１へACK信号（電源ON完了）が返信される。

時刻t4，t5では、前記キャラクタをTV２のディスプレイ上に表示させて各種の演出を行わせるために必要なキャラクタデータ（キャラクタの表示に必要な3Dモデルファイルおよびモーションファイル）が、ユーザ端末１の対話応答PF１０５から無線通信部１０２を経由してSTB３の無線通信部３０１へ送信される。

時刻t6，t7では、前記キャラクタデータに対するACK（情報送信完了）がSTB３の無線通信部３０１からユーザ端末１の無線通信部１０２を経由して対話応答PF１０５へ返信される。これと並行して、時刻t８ではSTB３の無線通信部３０１から対話応答PF３０２へ前記キャラクタデータが転送される。

その後、ユーザ端末２の対話応答PF１０５から、時刻t9においてキャラクタ表示部１０６へジャンプアウト描画要求が送信されると、端末ディスプレイ上ではキャラクタのジャンプアウト表示が演出される。

時刻t10では、対話応答PF１０５から無線通信部１０２へジャンプアウト完了が通知される。時刻t11，t12では、当該無線通信部１０２からSTB３の無線通信部３０１を介して対話応答PF３０２へ、前記ジャンプアウト完了が送信される。時刻t13では、STB３の対話応答PF３０２からキャラクタ表示部３０３へ前記ジャンプイン描画要求が転送され、TV2において、キャラクタのジャンプイン表示が演出される。

なお、上記の実施形態では、視聴機器がSTBである場合を例にして説明したが、本発明はこれのみに限定されるものではなく、カーナビゲーションシステムやデジタルフォトフレームなど、ディスプレイを備えて無線による遠隔操作が可能な機器であれば、どのような視聴機器にも同様に適用できる。

１…ユーザ端末，２…TV，３…STB，１０２，３０１…無線通信部，１０３…音声認識部，１０４…意味理解部，１０５，３０２…対話応答PF，１０６，３０３…キャラクタ表示部，１０７，３０４…音声合成部，３０５…番組検索部，３０６…VODサービス部，３０７…アプリ部，３０８…制御部

Claims

ユーザと仮想的に対話するキャラクタ対話型UIのキャラクタの表示をユーザ端末および視聴機器の各ディスプレイ間で移動させ、前記ユーザ端末および視聴機器のうち、前記キャラクタが表示されている側を、当該表示中のキャラクタとの対話形式で操作する遠隔操作システムであって、
前記ユーザ端末が、
ユーザの発声内容を理解する意味理解手段と、
前記発声内容を視聴端末へ提供する手段とを具備し、
前記ユーザ端末および視聴機器が、
相互に無線接続を確立する無線通信手段と、
前記ユーザの発声内容に基づいて応答内容を決定する対話応答手段と、
前記応答内容に基づいて音声メッセージを出力する音声応答手段と、
ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第１アニメーション制御手段と、
前記キャラクタをユーザ端末からジャンプアウトさせて操作対象の視聴機器へジャンプインさせる第２アニメーション制御手段とを具備し、
前記視聴機器がさらに、
前記応答内容に基づいて視聴サービスを制御する制御手段を具備したことを特徴とする遠隔操作システム。
前記ユーザ端末がユーザプロファイルを蓄積する手段を具備し、
前記対話応答手段は、前記ユーザプロファイルを反映して応答内容を決定することを特徴とする請求項１に記載の遠隔操作システム。
前記ユーザ端末は、キャラクタをジャンプインさせた視聴端末へ前記ユーザプロファイルを提供することを特徴とする請求項２に記載の遠隔操作システム。
前記視聴端末の対話応答手段は、前記提供されたユーザプロファイルを反映して応答内容を決定することを特徴とする請求項３に記載の遠隔操作システム。
前記第２アニメーション制御手段は、前記キャラクタを操作の完了した視聴機器からジャンプアウトさせてユーザ端末へジャンプインさせることを特徴とする請求項１ないし４のいずれかに記載の遠隔操作システム。
ユーザ端末から操作対象の視聴機器へキャラクタをディスプレイ上で移動させてキャラクタ対話型UIにより遠隔操作する遠隔操作システムのユーザ端末において、
ユーザの発声内容を理解する意味理解手段と、
前記発声内容を視聴端末へ提供する手段と、
視聴機器との間に無線接続を確立する無線通信手段と、
前記ユーザの発声内容に基づいて応答内容を決定する対話応答手段と、
前記応答内容に基づいて音声メッセージを出力する音声応答手段と、
ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第１アニメーション制御手段と、
前記キャラクタを、視聴端末へのジャンプインに同期してジャンプアウトさせる第２アニメーション制御手段とを具備したことを特徴とする遠隔操作システムのユーザ端末。
ユーザプロファイルを蓄積する手段を具備し、
前記対話応答手段は、前記ユーザプロファイルを反映して応答内容を決定することを特徴とする請求項６に記載の遠隔操作システムのユーザ端末。
前記キャラクタがジャンプインした視聴端末へ前記ユーザプロファイルを提供することを特徴とする請求項７に記載の遠隔操作システムのユーザ端末。
ユーザ端末から操作対象の視聴機器へキャラクタをディスプレイ上で移動させてキャラクタ対話型UIにより遠隔操作する遠隔操作システムの視聴機器において、
ユーザ端末との間に無線接続を確立する無線通信手段と、
ユーザ端末から提供されるユーザの発声内容に基づいて応答内容を決定する対話応答手段と、
前記応答内容に基づいて音声メッセージを出力する音声応答手段と、
ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第１アニメーション制御手段と、
前記キャラクタを、ユーザ端末からのジャンプアウトに同期してジャンプインさせる第２アニメーション制御手段と、
前記応答内容に基づいて視聴サービスを制御する制御手段とを具備したことを特徴とする遠隔操作システムの視聴機器。
ユーザプロファイルをユーザ端末から取得する手段を具備し、
前記対話応答手段は、前記ユーザプロファイルを反映して応答内容を決定することを特徴とする請求項９に記載の遠隔操作システムの視聴機器。