JP5556911B2

JP5556911B2 - コンテンツ表現を作成する、方法、プログラム、及びシステム

Info

Publication number: JP5556911B2
Application number: JP2013001018A
Authority: JP
Inventors: ドゥヌローラン; チィーウパトリック; 透布施; 幸代上堀
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-10-25
Filing date: 2013-01-08
Publication date: 2014-07-23
Anticipated expiration: 2028-10-15
Also published as: US20090113278A1; JP2009123197A; JP2013101657A

Description

本発明は、広くは、コンテンツ（例えば、マルチメディアコンテンツ）を生成して提示する技法に関し、より具体的には、ビデオ又はその他のマルチメディア記録を自動的に生成するシステム及びそれに伴う方法であって、提示されたコンテンツにおいて、ユーザが特に関心を持ち得る部分に、特定時間自動的にフォーカスする、システム及びそれに伴う方法に関する。即ち、本発明は、このような方法、プログラム、及びコンピュータ化されたシステムに関する。

記録されたプレゼンテーション、講義、及び、例えば、スクリーンキャスト等のチュートリアルは、モバイル装置（例えば、携帯電話又はＰＤＡ）の小さな画面上では見にくい。一般的なコンピュータ画面が、少なくとも８００×６００ピクセルの解像度でプレゼンテーションを示すのに対し、携帯電話の一般的な画面の解像度は、たったの２４０×１６０ピクセルである。たとえ画面の解像度が高くされても（アップル(Ａｐｐｌｅ)社のｉＰｈｏｎｅ（登録商標）のような最近のモデルは３２０×４８０ピクセルまで向上）、携帯電話画面の実際の物理的な大きさは、携帯できる小型の装置が好まれるため、実質的に小さいままであることが多い。従って、携帯電話画面の不十分な表面面積をどのように用いて、最大の情報を効率良くユーザに伝えるか、という問題が残っている。

これまでに、何人かの著者が、この問題に対処しようとしてきた。例えば、下記の非特許文献１において、著者たちは、写真、例えば、人々の写真、に関して算出された関心領域(Region of Interest)を示す技法を提案している。このシステムは、次に、検出された顔の周囲の写真のみを切り取って、全ての顔を順に示す。

下記の非特許文献２において、著者たちは、ＰＤＦファイルのドキュメントレイアウトを自動的に分析して、ユーザがどの領域に関心を持つ可能性が最も高いか判定することを提案している。例えば、ページ上のある図が関連しているものとして見つけ出され、この図にフォーカスする。また、このシステムは、テキスト−音声合成を用いて、この図のキャプションを読み上げる。

別の例では、下記の非特許文献３において、著者たちは、モバイル装置が傾きセンサを用いてドキュメントにおけるリストを連続的にナビゲートするシステムについて、ローロデックス(Ｒｏｌｏｄｅｘ)の例えを用いて説明している。しかしながら、この技法は、リストの純粋な連続的ブラウジングに限定されるため、プレゼンテーションの流れが非線形であり得るため、他のプレゼンテーションコンテキストへの適用性を制限してしまう。

このように、既存の技法では、小型提示装置を用いて特定時点における最も関連したコンテンツをユーザに提供することに関する問題に対し、効果的な解決法をもたらすことができない。

ワン(Wang)外，「MobiPicture：モバイル装置における写真のブラウジング(browsing pictures on mobile devices)」，マルチメディアに関する第１１回ＡＣＭ（米国計算機学会）国際会議会報(Proceedings of the eleventh ACM international conference on Multimedia)，（米国、カリフォルニア州、バークリー(Berkeley)），２００３年，Ｐ．１０６−１０７エロール(Erol)外，「ドキュメントのマルチメディアサムネイル(Multimedia thumbnails for documents)」，マルチメディアに関する第１４回ＡＣＭ年次国際会議会報(Proceedings of the 14th annual ACM international conference on Multimedia)，（米国、カリフォルニア州、サンタバーバラ(Santa Barbara)），２００６年，Ｐ．２３１−２４０ハリソン(Harrison)外，「握って、構えて、傾けて！操作的ユーザインタフェースの探究(Squeeze Me, Hold Me, Tilt Me! An Exploration of Manipulative User Interfaces)」，ＣＨＩ（コンピュータヒューマンインタラクション）'９８会報(Proceedings of CHI '98)，ｐ．１７−２４

本発明の手法は、コンテンツをユーザに提示する従来の技法に関する上記及びその他の問題のうち、１つ以上を実質的に取り除く方法及びシステムを提供する。

本発明の第１の態様は、方法であって、キャプチャモジュールが、プレゼンタによって提供された前記プレゼンテーションを取り込み、プレゼンテーション分析モジュールが、前記プレゼンテーションにおける関心領域を分析して識別し、前記プレゼンテーション分析モジュールが、前記関心領域が変化する順序を、前記プレゼンテーションに含まれるオブジェクトが示す方向に従って識別し、ビデオ作成モジュールが、識別された前記プレゼンテーションにおける前記関心領域および前記順序に基づいて、識別された前記プレゼンテーションにおける前記識別された順序に従って変化する前記関心領域にフォーカスをしたプレゼンテーションの時間単位コンテンツ表現を作成する。

本発明の第２の態様は、コンピュータを、プレゼンタによって提供されたプレゼンテーションを取り込むキャプチャモジュール、前記プレゼンテーションにおける関心領域を分析して識別すると共に、前記関心領域が変化する順序を、前記プレゼンテーションに含まれるオブジェクトが示す方向に従って識別するプレゼンテーション分析モジュール、及び識別された前記プレゼンテーションにおける前記関心領域および前記順序に基づいて、識別された前記プレゼンテーションにおける前記識別された順序に従って変化する前記関心領域にフォーカスをしたプレゼンテーションの時間単位コンテンツ表現を作成するビデオ作成モジュールとして機能させるための、プレゼンテーションを再生したコンテンツ表現を作成するプログラムである。

本発明の第３の態様のプレゼンテーションを再生したコンテンツ表現を作成するシステムは、プレゼンタによって提供されたプレゼンテーションを取り込むキャプチャモジュールと、前記プレゼンテーションにおける関心領域を分析して識別すると共に、前記関心領域が変化する順序を、前記プレゼンテーションに含まれるオブジェクトが示す方向に従って識別するプレゼンテーション分析モジュールと、識別された前記プレゼンテーションにおける前記関心領域および前記順序に基づいて、識別された前記プレゼンテーションにおける前記識別された順序に従って変化する前記関心領域にフォーカスをしたプレゼンテーションの時間単位コンテンツ表現を作成するビデオ作成モジュールと、を備える。

本発明に関する更なる態様について、一部は以下の説明で述べられ、一部は以下の説明から明らかであるか又は本発明を実施することにより分かるであろう。本発明の態様は、要素によって、並びに、様々な要素と以下の詳細な説明及び添付の特許請求の範囲で特に示された態様とを組み合わせることによって、実現及び達成され得る。

当然のことながら、上記の記述及び下記の記述はいずれも、単なる例示及び説明であって、いかなる形においても特許請求の範囲に記載の本発明又はその適用を制限するものではない。

本発明のシステムの一例としての実施形態及びその構成要素を示す図である。本発明のシステムの一実施形態の一例としての動作シーケンスを示すフローチャートである。本発明のシステムの一実施形態の一例としての動作結果を示す図である。本発明のシステムの一実施形態の別の一例としての動作結果を示す図である。棒グラフを含むプレゼンテーションの状況における、本発明のシステムの一実施形態の更に別の一例としての動作結果を示す図である。１セットの単一方向の矢印を含むプレゼンテーションチャートの状況における、本発明のシステムの一実施形態の一例としての動作結果を示す図である。１セットのいろいろな方向の矢印を含むプレゼンテーションチャートの状況における、本発明のシステムの一実施形態の一例としての動作結果を示す図である。４×９の欄から成るプレゼンテーション表の状況における、本発明のシステムの一実施形態の一例としての動作結果を示す図である。ユーザのモバイル装置の傾きを利用してユーザの関心領域にフォーカスする、本発明のシステムの一例としての実施形態を示す図である。手振りの動きを利用してパン及びスキャン動画の生成を促す、本発明のシステムの一例としての実施形態を示す図である。スライド上のマーク又は注釈を利用してパン及びスキャン動画の生成を促す、本発明のシステムの一例としての実施形態を示す図である。本発明のシステムが実施され得る、コンピュータプラットフォームの一例としての実施形態を示す図である。

以下の詳細な説明では、図面を参照するが、これらの図面において同一の機能要素は、同じ参照番号で示されている。図面は、本発明の原理に従った具体的な実施形態及び実施例を、限定目的ではなく例示目的で示している。これらの実施例は、当業者が本発明を実施することができるように詳細に説明されており、当然のことながら、他の実施例を利用してもよく、本発明の範囲及び精神を逸脱しない限り、様々な要素の構造的変更及び／又は置換を行ってもよい。従って、以下の詳細な説明は、限定された意味で解釈されない。更に、説明されているような本発明の様々な実施形態は、汎用コンピュータで作動するソフトウェアの形態で実施されてもよいし、専用ハードウェアの形態で実施されてもよいし、ソフトウェアとハードウェアとを組み合わせた形態で実施されてもよい。

上記のように、小型装置（例えば、携帯電話）の画面は小さすぎて、一般的にはテキストを含むコンテンツ（例えば、プレゼンテーションスライド又はスクリーンショット）をきちんと描画することができないため、このような小型装置では、プレゼンテーション、チュートリアル、及びスクリーンキャストが見にくい。この問題に対処するため、本発明の一実施形態は、１）映像ストリーム、音声ストリーム、及びメタストリームを用いて、オリジナルのストリームから関心領域を自動的に識別し、２）これらの関心領域とオリジナルのメディアストリームとを同期化し、３）パン及びスキャンを用いて、ズームイン／ズームアウトする（即ち、フォーカスを移動する）ことにより、既存のメディアストリームからユーザ制御可能な動画を生成しやすくする。生成された時間単位のメディアストリームは、ユーザがシームレスに割り込んで、一時的に特定の関心領域にフォーカスすることができる。その間、オリジナルメディアストリームは、再生を続けることができる、又は、ユーザが関心領域間をジャンプするのに伴ってタイムラインをジャンプして繰り返すこともできる。

本発明のシステムの一実施形態は、提示されたコンテンツにおいて、特定時間ユーザが特に関心を持ち得る部分に、自動的にフォーカスすることにより、ビデオ又はその他のマルチメディア記録の自動的な生成を容易にする。具体的には、本発明のシステムの一実施形態は、パン及びスキャンを２つの主な技法として用いて、以下に詳細に説明するように、メディアストリームにおける特定要素に自動的に（又は、ユーザの要求に応じて）フォーカスする。

図１は、本発明のシステムの一例としての実施形態１００及びその構成要素を示している。本発明のシステムのこの図示されている実施形態は、キャプチャモジュール１０１を含んでいてもよく、このキャプチャモジュール１０１は、様々な装置を用いて構成され（例えば、プロジェクタ１０２、プレゼンタのコンピュータ１０３、動画若しくは静止画カメラ１０４、及び／又はマイク１０５が挙げられるが、これらに限定されない）、マルチメディアプレゼンテーション及びその他のコンテンツを取り込み得る。本発明の様々な実施形態では、メディアストリームは例えば講義のビデオであって、そのフレーム中にはその前でプレゼンタが動いたり身振り手振りをしたりしている全画面表示のスライドを含んでいたり、即ち、ＰｒｏｊｅｃｔｏｒＢｏｘのように、講演の模様を静止画のスライド画像とその時の音声とをシステムによってキャプチャした、例えば、ｊｐｅｇ画像及びｍｐ３ファイルとを１セットにした同期化ストリームであってもよい。別の一例である設定としては、プレゼンタとルームディスプレイ上のスライドとのやりとりを検出して追跡する複数のカメラ、並びに、スライド及び音声を記録するその他のキャプチャ装置が備えられた部屋が挙げられる。このようなプレゼンテーションモードは全て、キャプチャモジュール１０１及びこれに関連付けられたキャプチャ装置１０２〜１０５によって取り込むことができる。

次に、キャプチャモジュール１０１は、この取り込まれたプレゼンテーションスライド、取り込まれた音声、及び／又は、その他のコンテンツ１０９、並びに、これに関連付けられたメタデータ１１０を、プレゼンテーション分析モジュール１０６に送信する。次に、プレゼンテーション分析モジュール１０６は、音声と映像の特徴を用いることにより、全オリジナルプレゼンテーション中の領域であって、特定時点においてユーザに関連すると判断される領域である、同期した関心領域を、プレゼンテーションの流れという観点から見つけ出す。

プレゼンテーション分析モジュール１０６によって生成された、同期化関心領域に関する情報を含む情報１１１は、動画又はその他の時間単位で作成されたフォーカス化マルチメディアコンテンツ１１２を生成する、ビデオ作成モジュール１０７に送られる。この動画又はその他の時間単位で作成されたフォーカス化マルチメディアコンテンツ１１２は、フォーカスされてきちんとユーザの関連領域と同期化されたプレゼンテーションの光景をユーザに提供すると共に、全オリジナルプレゼンテーションの、プレゼンテーションの流れの特定時点における最も関連した領域をユーザに届けるように、ユーザの小型提示装置に合わせてデザインされる。また、この動画又はその他の時間単位で作成されたフォーカス化マルチメディアコンテンツ１１２は、それに伴うプレゼンテーションの音声部分を含んでいてもよい。

最後に、生成されたこの動画又はその他のフォーカス化マルチメディアコンテンツ１１２は、ユーザの提示装置１０８に提供される。このユーザの提示装置１０８は、モバイル装置（例えば、ＰＤＡ）であってもよいし、携帯電話（例えば、アップル社のｉＰｈｏｎｅ（登録商標））であってもよいし、生成された動画又はその他のフォーカス化マルチメディアコンテンツ１１２（それに伴う音声を含む）が効果的にユーザに提示され得る、あらゆるその他の適切な装置であってもよい。

図２は、本発明のシステムの一実施形態（例えば、図１に示した実施形態１００）の一例としての動作シーケンス２００を示している。実施形態１００の動作は、ステップ２０１において開始する。ステップ２０２において、プレゼンテーションが取り込まれる。ステップ２０３において、プレゼンテーションを行う人の行為も取り込まれる。ステップ２０４において、プレゼンテーション分析モジュール１０６が、取り込まれたプレゼンテーションを分析し、プレゼンテーションの流れの観点から特定時点において関連した関心領域を識別する。ステップ２０５において、プレゼンテーションのこの時間的パス（経路）が、プレゼンテーション分析モジュールによって識別される。ステップ２０６において、ビデオ作成モジュール１０７が、この分析されたプレゼンテーション、その時間的パス、及び関心領域に基づいて、動画又はその他の時間単位で作成されたフォーカス化コンテンツ１１２を生成し、ステップ２０７において、動作が終了する。上記動作シーケンスは、動画又はその他の時間単位でフォーカス化コンテンツ１１２をユーザのモバイル装置又はその他の提示装置に転送するステップ、及び、この転送されたメディアをユーザに提示するステップも含み得ることに留意されたい。これらのステップは、あらゆる既知の技法を用いて行われてもよいため、これらの動作を行う厳密な方法は、本発明にとって重要なものではない。従って、これらのステップは、図２に示されていない。

初期設定により、図１に示した本発明のシステムの実施形態は、自動で動作する。つまり、システム１００は、オリジナルの又はインデックスが再作成されたビデオストリームを再生するが、適切な時点で関心領域を拡大してから、スライドのフルスクリーンを示すように元に戻る。適切な場合、このシステムは、スキャンも用いて、関心領域周囲を示す。例えば、光学式文字認識（ＯＣＲ：optical character recognition）を用いてスライド上において見つけられた文字が、２分３０秒の時点で音声ストリームにおいて見つけられた場合、このシステムは、２分３０秒の時点でこの文字をズームインして示し、この文字が見つけられた行の残りの部分をパンする。従って、本発明のシステムの一実施形態は、ＯＣＲ機能を備えて、上記のような音声ストリームにおいて見つけられた文字の光学式文字認識（ＯＣＲ）を行ってもよい。

図３は、本発明のシステムの一実施形態の一例の動作結果を示している。この図３は、本発明の一実施形態により行われるスライドの自動パン及びスキャンによって、ユーザには、スライドにおける関心領域が、キャプチャ装置１０２〜１０５によって取り込まれたプレゼンタの身振り手振り、及び、プレゼンテーションの音声特性に合わせて同期化されて示される、ということを示している。例えば、同じプレゼンテーションスライド３０１のフォーカス部分３０２及び３０３は、プレゼンタによって行われる説明に応じて、ユーザに示される。つまり、プレゼンタがスライドの特定部分に位置する項目について説明すると、本発明のシステムは、その説明された構成要素に自動的にフォーカスを行い、スライドの適切な領域３０２及び３０３を拡大する。このような拡大を行うために、本発明のシステムの一実施形態は、プレゼンテーション音声の音声認識を用いて得られた文字と、ＯＣＲを用いて抽出されるかプレゼンテーションファイルから直接的に抽出され得る、プレゼンテーションスライドにおいて見つけ出された文字とを比較する。一致する又は十分に一致していると判断される場合、このシステムは適切なズーム動作を行う。このシステムは、プレゼンタが、プレゼンテーションにある文字そのものを用いずに、別の文字（例えば、同義語）を用いることがある、ということを考慮し得る。従って、このシステムは、同義語をチェックしてもよいし、プレゼンテーションの時間の流れにおける現時点が、プレゼンテーションにおける特定項目に関連することを示すその他のものを用いてもよい。例えば、本発明のシステムは、プレゼンタによる指示装置の指す箇所（例えば、指し棒やレーザポインタの指示位置はビデオ分析から、マウスポインタの指示位置はアプリケーションを動作させているコンピュータに接続したマウスの入力から）を検出して用いる。

本発明の一実施形態では、ユーザは、再生中のいつでも制御可能であり、プレゼンテーションの通常のタイムラインとは関係なく、手動で次の関心領域に進むことができる。例えば、ユーザは、文字、人、写真、又は、プレゼンテーションのその他何らかの部分、に関してもっと読みたいと思う場合、装置のナビゲーションキーを押す（又は、傾きセンサを備えた装置を傾ける）ことにより、次の又は前の関心領域にジャンプすることができる。スライドに関し、関心領域は、ＯＣＲによって、或いは、その他の抽出方法（例えば、ファイル抽出方法）を用いて抽出された文字（例えば、ＰｏｗｅｒＰｏｉｎｔ（登録商標）は、ＰＰＴファイルの文字を囲んだバウンディングボックスを抽出することができる）、及び、画像を含み得る。携帯電話に関し、ナビゲーションキーは、上下左右であり、それぞれ、スライド上における前の行、次の行、前の文字、次の文字に行くようにマッピングされている。

ユーザが手動ナビゲーションモードを開始すると、現時点でフォーカスされた点が現在選択されているフォーカスとなり、ここからユーザはナビゲーションを開始することができる。例えば、本発明のシステムの一実施形態の別の一例の動作を示す図４では、システムがプレゼンテーションスライド４０１における文字“Flexible”４０２をズームインしており、ユーザが制御して「次へ」というキーを押すと、システムは、同じスライド４０１における文字“Not”４０４が前記ＯＣＲ機能を用いて見つけ出され得る次の関心領域であるため、この文字“Not”４０４にフォーカスする。ユーザが制御したときにシステムが特定の関心領域をズームインしない場合、そのスライド上における最初の関心領域（例えば、ＯＣＲによって見つけ出された最初の左上の文字）がフォーカスとなる。この領域を拡大することにより、つなぎ目の無い移行が行われる。

同様に、ユーザが手動制御を終了すると、本発明のシステムの一実施形態は、ズームアウト、全景、及び、ズームインを用いて、次に示される予定となっていた関心領域にフォーカスを合わせて、自動再生に戻る。

［グラフ、チャート、表のパン及びスキャン］
プレゼンテーションでは、グラフ、チャート、及び、表がよく用いられる。これらのオブジェクトは、プレゼンテーションキャプチャモジュール１０１によって、多くの異なる方法で抽出することができる。ユーザがＭｉｃｒｏｓｏｆｔ社のＰｏｗｅｒＰｏｉｎｔ（登録商標）ソフトウェアを使用している場合、これらのオブジェクトは、ＰｏｗｅｒＰｏｉｎｔ（登録商標）のアプリケーションプログラミングインタフェース（ＡＰＩ）を介して抽出することができる。ユーザがグラフ／チャートを別のアプリケーションからのオブジェクトとして組み込んだ場合には、そのオブジェクトのデータを、Ｅｘｃｅｌ又はその他のＡｃｔｉｖｅＸ（登録商標）コントロールから得ることができる。また、オブジェクトが単純な画像である場合には、画像解析法（例えば、ＯＣＲ）が適用される。

［グラフ］
図５は、棒グラフを含むプレゼンテーション５０１の状況における、本発明のシステムの一実施形態の別の一例の動作を示している。この図５に示されているように、棒グラフに関し、パン及びスキャンパス５０２〜５０４は、この棒グラフの先端の輪郭を辿り得る。

［チャート］
図６は、１セットの矢印を含むプレゼンテーションチャートの状況における、本発明のシステムの一実施形態の一例の動作を示している。本発明の一実施形態は、矢印を含むチャートをパンする新しい技法を含む。矢印の形には、一方向に向かう矢印といろいろな方向に向かう矢印との２つのタイプがあり得る、ということに留意されたい。前記図６は、１セットの単一方向の矢印を含むチャートを示している。このチャートにおける矢印はそれぞれ、単一方向を示している。従って、本発明のシステムの一実施形態は、これらの矢印によって示された方向に従ってパンする（図６に示したパンウィンドウ６０１〜６０４参照）。

図７は、１セットのいろいろな方向の矢印を含むプレゼンテーションチャートの状況における、本発明のシステムの一実施形態の一例の動作を示している。パンアニメーションは、入ってくる矢印が最も多い中央のボックス（７０２、７０５）から開始する。スライドは、この中央のボックス（７０２、７０５）から、入ってくる矢印が２つで出ていく矢印が２つの左側のボックス（７０１、７０４）へパンし、最後に、入ってくる矢印が２つで出ていく矢印が１つの右側のボックス（７０３、７０６）へパンする。このように、本発明の一実施形態は、矢印を用いることにより関心領域がチャートにおける他の要素とのつながりの数に基づいて格付けされる、チャートをパンする方法を用いる。

［表］
図８は、４×９の欄から成るプレゼンテーション表の状況における、本発明のシステムの一実施形態の一例の動作を示している。パンアニメーションは、タイトル（８０１、８０５）から開始して、ボックス（８０２、８０６）へ水平方向に移動し、次に、このパン領域は、ボックス（８０４、８０７）へ垂直方向に移動する。最後に、このパン領域は、表の右下部分（８０３、８０８）へ移動する。つまり、本発明のシステムの一実施形態は、タイトル及び項目に沿って表をスキミングすることにより、表のチャートをパンする方法を用いる。

［傾きセンサを用いた関心領域のナビゲーション］
本発明の別の実施形態によれば、このシステムは、ユーザ入力に対する運動センサを備えたモバイル装置及び携帯電話を用いる。例えば、ＮＴＴＤｏＣｏＭｏ社の新しい携帯電話ＦＯＭＡは、運動センサを有している（タブチ(Tabuchi)，「新しい日本の携帯電話は動きを検出(New Japanese Mobile Phones Detect Motion)」，ＡＢＣニュースオンライン(ABC News online)，２００７年４月２５日，［２００７年６月１９日検索］，http:／／abcnews.go.com／Technology／wireStory?id＝3078694，に記載）。また、携帯電話のカメラを用いて動きを測定することも可能であり、これは、例えば、TinyMotionシステム（ワン外，「カメラ付き携帯電話に基づいた動作感知：インタラクション技法、アプリケーション、及び性能研究(Camera Phone Based Motion Sensing: Interaction Techniques, Applications and Performance Study)」，ＡＣＭＵＩＳＴ(User Interface Software and Technology) ２００６，（スイス、モントルー(Montreux)），２００６年１０月１５〜１８日，に記載）において行われている。

これらの技法を用いて、本発明のシステムは、関心領域をナビゲートする新しい方法を利用する。このインタラクション（ｉｎｔｅｒａｃｔｉｏｎ）は、非常に直観的であって、図９に示されているように、ユーザは、見たいと思う関心領域の方へ装置を傾けるだけである。具体的には、この図９は、手振りの動きを利用してパン及びスキャン動画の生成を促す、本発明のシステムの一例の実施形態を示している。この図９では、ユーザは、装置９０１の動きを利用して、スライド９０４における関心領域９０５〜９１０の再生制御を促す。本発明のシステムがフォーカスする特定の関心領域は、装置の回転位置に基づいて選択される。例えば、装置９０１が位置９０３へ時計回りに回転されると、本発明のシステムによって、右下の隅にある関心領域９１０にフォーカスされる。装置９０１が位置９０２へ反時計回りに回転されると、左下の隅にある関心領域９０８にフォーカスされる。

モバイル装置が傾きセンサを用いてドキュメントにおけるリストを連続的にナビゲートする上記の非特許文献３でローロデックスの例えを用いて説明されたシステムとは異なり、関心領域を見つけ出す上記本発明の技法の少なくとも１つの実施形態は、非線形である、ということにも留意されたい。

［技術的詳細−同期化された関心領域の検出］
本発明の別の実施形態では、いくつかの入力ソース、即ち、ビデオファイル（例えば、記録された講義のＧｏｏｇｌｅＶｉｄｅｐ）、ｐｂｏｘのようなプレゼンテーションキャプチャ装置、又は、ＰｏｗｅｒＰｏｉｎｔ（登録商標）スライドから得られた情報を用いて、関心領域を見つけ出すことができる。ビデオファイルに関し、このシステムは、フレーム差分を用いて、スライドを単位要素として検出する。従って、オリジナルビデオは、時間単位にセグメント化されて、それぞれが、代表スライドとそれに関連付けられた音声セグメントを有する。次に、このシステムは、光学式文字認識、文字を囲んだバウンディングボックス、及び動作領域（例えば、スライド又はアニメーション内で再生するビデオクリップ）を用いて、各単位（即ち、スライド）において関心領域を見つけ出す。また、音声−テキスト認識を用いることにより、いくつかの関心領域が、音声ストリームで認識された文字とリンクされる。

ｐｂｏｘのような装置に関しては、入力データは、音声セグメントを伴う既にセグメント化されたスライドから成る。本実施例には、これらと同じ処理が用いられる。ＰｏｗｅｒＰｏｉｎｔ（登録商標）ファイルに関しては、このシステムは、スライドを抽出し、関心領域（例えば、文字、画像、チャート、及びメディア要素（例えば、ビデオクリップ））がもしあれば、ドキュメントオブジェクトモデルを用いて抽出する。時間情報が入手できないため、このシステムは、そのスライドに提示された情報量に基づいて、時間間隔と各スライドとを任意に関連付ける。このスライドにアニメーションが定義されている場合には、その時間が考慮される。好適な実施形態では、テキスト１行又は写真１枚がそれぞれ３秒間とされる。

［スライドに対するプレゼンタのインタラクションの検出及び追跡］
本発明のシステムの別の実施形態では、スライドに対するプレゼンタのインタラクションを用いて、活動的な関心領域の検出とパスの算出とが促される。インタラクションとしては、手振り、レーザポインタの動き、カーソルの移動、マーク、及び注釈が挙げられるが、これらに限定されない。スライドに対する手振りは、非常によく行われるものであり、非公式試験において、１週間に５つの講義を観察したところ、４人の話者がスライドに対して身振り手振りを使い、１人の話者がレーザポインタを用いた。

本発明のシステムの一実施形態では、ディスプレイ前におけるインタラクションを、ディスプレイのスナップショットの相違を計算することによって抽出することができる。カーソルの移動、マーク、及び注釈は、ＰｏｗｅｒＰｏｉｎｔから（登録商標）、又は、プレゼンタのコンピュータシステム１０３のオペレーティングシステムのＡＰＩを用いて、より正確に得ることができる。

図１０は、手振りの動きを利用してパン及びスキャン動画の生成を促す、本発明のシステムの一例の実施形態を示している。この例では、連続画像１００２〜１００４において、プレゼンタは、手振りを用いて、プレゼンテーションスライド１００１の要素１００７〜１００９をそれぞれ指し示している。本発明のシステムのこの実施形態は、プレゼンタの前記手振りを検出して、プレゼンテーションスライドの同じ関心領域１００７〜１００９に連続的にフォーカスすることにより、本発明のシステムのこの実施形態によって行われる前記フォーカス動作が、プレゼンテーションの時間の流れと同期化される。

図１１は、スライド上のマーク又は注釈を利用してパン及びスキャン動画の生成を促す、本発明のシステムの一例としての実施形態を示している。この実施形態では、本発明のシステムは、プレゼンテーション中にプレゼンテーションスライド１１０１上にプレゼンタが付ける注釈１１０２を検出する。このような検出に従って、前記注釈を含む関心領域１１０３に、本発明のシステムによってフォーカスされる。

［関心領域間における移行］
オリジナルストリームが単位にセグメント化され、各単位において関心領域が見つけ出されると、本発明のシステムの一実施形態のビデオ作成モジュール１０７は、これらの単位間及び各単位内の関心領域間を移行するアニメーションを自動的に生成する。各単位は、時間間隔に対応する（例えば、１つのスライドは３０秒間示される）。関心領域とタイムラインとの間におけるマッピングが可能である場合には、このマッピングを用いて、再生中の適切な時点で、ズームイン／ズームアウトパンアニメーションに直接的にフォーカスされる。

マッピングが可能でない場合には、ズームスキャンアニメーションは、関心領域の数及び位置に合うように設定される。例えば、５行のテキストが検出され、そのセグメントの時間が３０秒間である場合、アルゴリズムは、１行目の最初の文を拡大し、その行を３０／５〜１秒間で走査し、２行目へ１秒間で走査し、というように最終行が示されるまで続ける。

［自動モードと手動モードとの間における移行］
ユーザは、いつでも、あらゆる利用可能なコントローラ（例えば、装置上のボタン、傾き検出器、又はタッチスクリーン）を用いて、自動再生に割り込み、異なる関心領域に手動でジャンプすることができる。１つのモードでは、音声トラックは再生を続け、ユーザが手動ナビゲーションモードを終了すると、自動再生は、その時居たであろう場所に戻り、ズームイン／ズームアウト又は走査を用いて視覚的に移行する。

［適用例−ビデオ講義の観賞］
次に、本発明のシステムの様々な実施形態の様々な適用例について説明する。第１の例では、ある日本の学生が電車通学をしている。彼は、オンラインＶｉｄｅｏサイトにおいて、ＭｙＳＱＬデータベース最適化に関する興味深い動画を見つける。彼は、本発明のシステムを用いて、インタラクションを必要とすることなく、その記録を見ることができる。即ち、このシステムは、オリジナルビデオストリームを自動的にセグメント化してスライドを示し、スライド内において、（例えば、話者の身振り手振り及び音声と同期化された）適切な時点で自動的にズームイン／ズームアウトする。システムが関心領域として見つけ出していない興味深い箇所が、スライド上に現れたとする。彼が携帯電話上の「次へ」を押すことにより、手動制御モードとなる。これにより、現在の関心領域がズームインされる。彼は、帰宅したら、この最適化法を試してみたいと思う。彼は、ＰＣにおいて本発明のシステムの一実施形態を用いることにより、システムが自動的に見つけ出した関心領域と手動制御モードで自分が見つけ出した関心領域との両方をブラウズすることができる。

［注釈付きＰｏｗｅｒＰｏｉｎｔ（登録商標）の閲覧］
第２の例では、ある会社員が、コメント及び手書き注釈の付いたＰｏｗｅｒＰｏｉｎｔ（登録商標）プレゼンテーションが添付された電子メールを受信する。このユーザは、本発明の一実施形態のシステムが、ドキュメントのページを自動的にめくっていき、関心領域（この場合には、各スライドにおける注釈が付けられた領域）をズームイン／ズームアウトすることで、ＰｏｗｅｒＰｏｉｎｔ（登録商標）の再生を歩きながら見ることができる。

［ビデオ講義のブラウジング］
別の例では、ある学生が、来期に取る講座を探したいと思っている。彼は、ＫｎｏｗｌｅｄｇｅＤｒｉｖｅによって配信されている大学のオープンコースウェアにアクセスする。彼は、本発明のシステムを用い、教師の意図（例えば、身振り手振り、注釈）及びそれに対する学生の留意（例えば、ノート取り、ブックマーク）に基づいて、評価の高いスライドをブラウズすることができる。彼が携帯電話を揺らすことにより、次から次へと動画がスキップされる。運動センサが内蔵された手動制御モードでは、携帯電話を傾けることによって、関心領域を選択することができる。

［コンピュータシステム例］
図１２は、本発明の手法の一実施形態が実施され得る、コンピュータ／サーバシステム１２００の一実施形態を示すブロック図である。このシステム１２００は、コンピュータ／サーバプラットフォーム１２０１、周辺装置１２０２、及びネットワーク資源１２０３を含む。

コンピュータプラットフォーム１２０１は、その様々な部分の間にわたって情報をやりとりするデータバス１２０４又はその他の通信機構と、このバス１２０４につながれて情報を処理したりその他の計算及び制御タスクを行ったりするプロセッサ１２０５とを含み得る。また、このコンピュータプラットフォーム１２０１は、バス１２０４につながれて、様々な情報及びプロセッサ１２０５によって実行される命令を記憶する、揮発性記憶装置１２０６（例えば、ランダムアクセスメモリ（ＲＡＭ）、又はその他の動的記憶装置）も含む。この揮発性記憶装置１２０６は、プロセッサ１２０５が命令を実行する間、一時的数値変数又はその他の中間情報を記憶するのに用いられてもよい。更に、コンピュータプラットフォーム１２０１は、バス１２０４につながれて、静的情報及びプロセッサ１２０５（例えば、基本入出力システム（ＢＩＯＳ））に対する命令並びに様々なシステム構成パラメータを記憶する、読出し専用メモリ（ＲＯＭ若しくはＥＰＲＯＭ）１２０７又はその他の静的記憶装置も含み得る。永続性記憶装置１２０８（例えば、磁気ディスク、光ディスク、又は固体フラッシュメモリ素子）が設けられてバス１２０４につながれており、情報及び命令を記憶する。

コンピュータプラットフォーム１２０１は、バス１２０４を介して、ディスプレイ１２０９（例えば、ブラウン管（ＣＲＴ）、プラズマディスプレイ、又は液晶ディスプレイ（ＬＣＤ））につながれて、システム管理者又はこのコンピュータプラットフォーム１２０１のユーザに情報を表示してもよい。英数字キー及びその他のキーを含む入力装置１２１０が、バス１２０４につながれており、選択された情報及びコマンドをプロセッサ１２０５に伝達する。別のタイプのユーザ入力装置として、カーソル制御装置１２１１（例えば、マウス、トラックボール、又はカーソル方向キー）があり、この装置は、選択された方向情報及びコマンドをプロセッサ１２０５に伝達すると共に、ディスプレイ１２０９上におけるカーソル移動を制御する。一般的に、この入力装置は、２つの軸（即ち、第１の軸（例えば、ｘ）及び第２の軸（例えば、ｙ））において自由度２を有し、これにより、平面において位置を特定することができる。

外部記憶装置１２１２をコンピュータプラットフォーム１２０１にバス１２０４を介して接続し、コンピュータプラットフォーム１２０１に追加の若しくはリムーバブルの記憶容量を提供してもよい。コンピュータシステム１２００の一実施形態では、このリムーバブル外部記憶装置１２１２を用いて、他のコンピュータシステムとデータを交換しやすくし得る。

本発明は、本明細書中に説明した技法を実施するための、コンピュータシステム１２００の使用法に関する。一実施形態において、本発明のシステムは、コンピュータプラットフォーム１２０１のような装置に備えられ得る。本発明の一実施形態によれば、本明細書中に説明した技法は、コンピュータシステム１２００が、プロセッサ１２０５に応答して、揮発性メモリ１２０６に収容されている１つ以上の命令のうちの１つ以上のシーケンスを実行することにより行われる。このような命令は、別のコンピュータ可読媒体（例えば、永続性記憶装置１２０８）から揮発性メモリ１２０６に読み込まれてもよい。このように揮発性メモリ１２０６に収容されている命令のシーケンスを実行することにより、プロセッサ１２０５は、本明細書中に説明した処理ステップを行う。別の実施形態では、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて配線回路を用いて、本発明を実施してもよい。従って、本発明の実施形態は、ハードウェア回路とソフトウェアとのいずれの特定の組み合わせにも限定されない。

本明細書中で用いる「コンピュータ可読媒体」という言葉は、実行するための命令をプロセッサ１２０５に提供することに関与するあらゆる媒体を指す。このコンピュータ可読媒体は、本明細書中に説明したあらゆる方法及び／又は技法を実施するための命令を保持し得る機械可読媒体の一例にすぎない。このような媒体は、多数の形態を取ってよく、例えば、不揮発性媒体、揮発性媒体、及び伝送媒体が挙げられるが、これらに限定されない。不揮発性媒体としては、光ディスク又は磁気ディスク（例えば、永続性記憶装置１２０８）が挙げられる。揮発性媒体としては、動的メモリ（例えば、揮発性記憶装置１２０６）が挙げられる。伝送媒体としては、同軸ケーブル、銅線、及び光ファイバー（例えば、データバス１２０４を構成するワイヤ）が挙げられる。また、伝送媒体は、電波及び赤外線データ通信中に発生するような、音波又は光波の形態を取ってもよい。

コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他あらゆる磁気媒体、ＣＤ−ＲＯＭ、その他あらゆる光媒体、パンチカード、紙テープ、孔パターンを備えたその他あらゆる物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュＥＰＲＯＭ、フラッシュドライブ（登録商標）、メモリカード、その他あらゆるメモリチップ若しくはカートリッジ、これから説明する搬送波、又は、コンピュータが読み取ることのできるその他あらゆる媒体が挙げられる。

実行する１つ以上の命令のうちの１つ以上のシーケンスをプロセッサ１２０５に搬送するのに、様々な形態のコンピュータ可読媒体を用いてもよい。例えば、命令は、まず、リモートコンピュータから磁気ディスクに搬送され得る。或いは、リモートコンピュータが、その動的メモリに命令をロードし、モデムを用い電話回線を介してこの命令を送信してもよい。コンピュータシステム１２００内のモデムは、この電話回線上のデータを受信し、赤外線送信機を用いてこのデータを赤外線信号に変換することができる。赤外線検出器が、赤外線信号で搬送されたこのデータを受信し、適切な回路が、このデータをデータバス１２０４上に置くことができる。バス１２０４は、このデータを揮発性記憶装置１２０６に搬送し、プロセッサ１２０５は、この揮発性記憶装置１２０６から命令を読み出して実行する。揮発性メモリ１２０６によって受信されたこの命令は、任意で、プロセッサ１２０５が実行する前或いは実行した後に、永続性記憶装置１２０８に記憶されてもよい。また、この命令は、当業界では周知の様々なネットワークデータ通信プロトコルを用い、インターネットを介してコンピュータプラットフォーム１２０１にダウンロードされてもよい。

コンピュータプラットフォーム１２０１は、データバス１２０４につながれたネットワークインタフェースカード１２１３のような通信インタフェースも含む。この通信インタフェース１２１３は、ローカルネットワーク１２１５に接続されたネットワークリンク１２１４につなぐ双方向データ通信をもたらす。例えば、この通信インタフェース１２１３は、対応するタイプの電話回線へのデータ通信接続をもたらす、総合デジタル通信網サービス（ＩＳＤＮ）カード又はモデムであってよい。また、別の例として、この通信インタフェース１２１３は、互換ＬＡＮへのデータ通信接続をもたらす、ローカルエリアネットワークインタフェースカード（ＬＡＮＮＩＣ）であってもよい。ネットワークの実施には、更に、周知の８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、及びブルートゥース(Ｂｌｕｅｔｏｏｔｈ（登録商標）)のような、無線リンクを用いてもよい。このような実施例のいずれにおいても、通信インタフェース１２１３は、様々なタイプの情報を表すデジタルデータストリームを搬送する、電気信号、電磁信号、又は光信号を送受信する。

ネットワークリンク１２１４は、一般的に、１つ以上のネットワークを介して、他のネットワーク資源へのデータ通信をもたらす。例えば、このネットワークリンク１２１４は、ローカルネットワーク１２１５を介して、ホストコンピュータ１２１６又はネットワーク記憶装置／サーバ１２２２に接続し得る。更に又は或いは、このネットワークリンク１２１４は、ゲートウェイ／ファイアウォール１２１７を介して、広域若しくはグローバルネットワーク（例えば、インターネット）１２１８に接続し得る。従って、コンピュータプラットフォーム１２０１は、インターネット１２１８上のいずれの位置にあるネットワーク資源（例えば、遠隔ネットワーク記憶装置／サーバ１２１９）にもアクセスすることができる。一方、コンピュータプラットフォーム１２０１も、ローカルエリアネットワーク１２１５及び／又はインターネット１２１８上のいずれの位置にあるクライアントによってもアクセスされ得る。ネットワーククライアント１２２０及び１２２１自体は、コンピュータプラットフォーム１２０１に類似したコンピュータプラットフォームに基づいて実施され得る。

ローカルネットワーク１２１５及びインターネット１２１８はいずれも、デジタルデータストリームを搬送する電気信号、電磁信号、又は光信号を用いる。様々なネットワークを介する信号、並びに、コンピュータプラットフォーム１２０１とデジタルデータをやりとりするネットワークリンク１２１４上の及び通信インタフェース１２１３を介する信号は、情報を輸送する搬送波の例としての形態である。

コンピュータプラットフォーム１２０１は、インターネット１２１８及びＬＡＮ１２１５並びにネットワークリンク１２１４及び通信インタフェース１２１３を含む様々なネットワークを介して、プログラムコードを含むメッセージやデータを送受信することができる。インターネットの例において、コンピュータプラットフォーム１２０１は、ネットワークサーバとして機能する場合、インターネット１２１８、ゲートウェイ／ファイアウォール１２１７、ローカルエリアネットワーク１２１５、及び通信インタフェース１２１３を介して、クライアント１２２０及び／又は１２２１で稼動するアプリケーションプログラムに対して要求されたコード若しくはデータを送信する。同様にして、コンピュータプラットフォーム１２０１は、他のネットワーク資源からコードを受信する。

この受信コードは、受信されたら、プロセッサ１２０５によって実行されてもよいし、且つ／或いは、後で実行するために、永続性記憶装置１２０８若しくは揮発性記憶装置１２０６又はその他の不揮発性記憶装置に記憶されてもよい。このように、コンピュータプラットフォーム１２０１は、搬送波の形態でアプリケーションコードを取得し得る。

本発明は、いずれの特定のファイアウォールシステムにも限定されない、ということに留意されたい。本発明の方策に基づいたコンテンツ処理システムは、３つのファイアウォール動作モード（具体的には、ＮＡＴモード、ルートモード、透過モード）のいずれにおいて用いられてもよい。

最後に、当然のことながら、本明細書中に説明した処理及び技法は、本質的にはいずれの特定装置にも関連せず、あらゆる適切な構成要素の組み合わせによって実施され得る。更に、本明細書中に説明した教示に従って、様々なタイプの汎用装置を用いてもよい。また、本明細書中に説明した方法ステップを行うように特殊化された装置を構成することも有益であろう。本発明を特定の例に関して説明してきたが、これらの例は、全ての点において限定ではなく例示を意図している。本発明を実施するのに、ハードウェア、ソフトウェア、及びファームウェアの多数の異なる組み合わせが適していることは、当業者には認められるであろう。例えば、本明細書中に説明したソフトウェアは、多種多様なプログラミング若しくはスクリプト言語（例えば、アセンブラ、Ｃ／Ｃ＋＋、パール、シェル、ＰＨＰ、Ｊａｖａ（登録商標）など）で実施され得る。

更に、本明細書を考察してここに開示した本発明を実施することにより、当業者には、本発明の他の実施例が明らかとなるであろう。このデータ複製機能を備えたコンピュータ記憶システムには、ここに説明した実施形態の様々な態様及び／又は構成要素を単独で或いはあらゆる組み合わせで用いてもよい。本明細書及びここに挙げた実施例は、単なる例と見なすことが意図されており、本発明の真の範囲及び精神は、添付の特許請求の範囲により示されている。

１００システム
１０２プロジェクタ
１０３コンピュータ
１０４カメラ
１０５マイク
１０８提示装置
１１１情報
２００動作シーケンス
３０１、４０１、５０１プレゼンテーションスライド
９０４、１００１、１１０１プレゼンテーションスライド
３０２、３０３フォーカス部分
４０２、４０４文字
５０２〜５０４パン及びスキャンパス
６０１〜６０４パンウィンドウ
７０１〜７０６、８０１〜８０８ボックス
９０１モバイル装置
９０２、９０３位置
９０５〜９１０、１００７〜１００９、１１０３関心領域
１００２〜１００４連続画像
１１０２注釈
１２００コンピュータシステム
１２０１コンピュータプラットフォーム
１２０２周辺装置
１２０３ネットワーク資源
１２１４ネットワークリンク

Claims

プレゼンテーションを再生したコンテンツ表現を作成する方法であって、
キャプチャモジュールが、プレゼンタによって提供された前記プレゼンテーションを取り込み、
プレゼンテーション分析モジュールが、前記プレゼンテーションにおける関心領域を分析して識別し、
前記プレゼンテーション分析モジュールが、前記関心領域が変化する順序を、前記プレゼンテーションに含まれるオブジェクトが示す方向に従って識別し、
ビデオ作成モジュールが、識別された前記プレゼンテーションにおける前記関心領域および前記順序に基づいて、識別された前記プレゼンテーションにおける前記識別された順序に従って変化する前記関心領域にフォーカスをしたプレゼンテーションの時間単位コンテンツ表現を作成する、
ことを含むことを特徴とする、方法。
前記プレゼンテーションが、１セットの少なくとも１つの矢印を含むチャートを含み、
識別された前記プレゼンテーションにおける前記関心領域が前記矢印によって示された方向を辿るように、前記順序が識別されることを特徴とする、請求項１に記載の方法。
前記チャートが、それぞれが１セットのいろいろな方向の矢印を有する複数の要素を含み、
前記複数の要素の各要素と関連付けられた矢印の数に基づいて前記順序が識別されることを特徴とする、請求項２に記載の方法。
モバイル装置が、ユーザによって用いられる前記モバイル装置の位置方向を検出し、前記プレゼンテーションの少なくとも一部を表示する、ことを更に含み、
前記プレゼンテーション分析モジュールが、前記プレゼンテーションにおける前記関心領域を、検出された前記位置方向に基づいて識別する、
ことを特徴とする、請求項１〜３の何れか１項に記載の方法。
コンピュータを、
プレゼンタによって提供されたプレゼンテーションを取り込むキャプチャモジュール、
前記プレゼンテーションにおける関心領域を分析して識別すると共に、前記関心領域が変化する順序を、前記プレゼンテーションに含まれるオブジェクトが示す方向に従って識別するプレゼンテーション分析モジュール、及び
識別された前記プレゼンテーションにおける前記関心領域および前記順序に基づいて、識別された前記プレゼンテーションにおける前記識別された順序に従って変化する前記関心領域にフォーカスをしたプレゼンテーションの時間単位コンテンツ表現を作成するビデオ作成モジュール
として機能させるための、プレゼンテーションを再生したコンテンツ表現を作成するプログラム。
プレゼンタによって提供されたプレゼンテーションを取り込むキャプチャモジュールと、
前記プレゼンテーションにおける関心領域を分析して識別すると共に、前記関心領域が変化する順序を、前記プレゼンテーションに含まれるオブジェクトが示す方向に従って識別するプレゼンテーション分析モジュールと、
識別された前記プレゼンテーションにおける前記関心領域および前記順序に基づいて、識別された前記プレゼンテーションにおける前記識別された順序に従って変化する前記関心領域にフォーカスをしたプレゼンテーションの時間単位コンテンツ表現を作成するビデオ作成モジュールと、
を備えた、プレゼンテーションを再生したコンテンツ表現を作成するシステム。