JP2011008752A

JP2011008752A - ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム

Info

Publication number: JP2011008752A
Application number: JP2009231212A
Authority: JP
Inventors: Chunyuan Liao; リアオチュニュアン; Qiong Liu; リュウチョン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2009-06-26
Filing date: 2009-10-05
Publication date: 2011-01-13
Also published as: US20100331041A1

Abstract

【課題】ドキュメント中のコンテンツに対して可能な操作に制約があった。
【解決手段】複数のドキュメントのデジタルコピーを記憶手段に記憶し、任意のドキュメントのスナップショットをカメラで撮影し、カメラで撮影されるスナップショットをディスプレイに表示し、スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも１つの複数のドキュメントを検索手段により検索し、スナップショットで撮影された任意のドキュメント中の位置に対応する、検索されたドキュメント中の位置を位置判別手段により判別し、検索された前記ドキュメントのデジタルコピーを記憶手段から受信手段で受信し、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作手段で操作するようにした。
【選択図】図２

Description

本発明は、カメラで撮影したドキュメント中の情報を操作するためのドキュメント操作システム、方法およびプログラムに関する。

紙媒体は軽量、柔軟かつ耐久性があり、高解像度であることから多様な用途でのドキュメント閲覧に適する。しかし、一方で通信やコンピュータ処理の能力に欠け、動的なフィードバックを提示することはできない。対照的に、通信機能を有する携帯端末（例えば携帯電話）は通信、コンピュータ処理そして動的なフィードバックを行う機能は有するが、ディスプレイの表示面積が狭いとか低解像度であるといった表示に関わる問題がある。

近年、携帯電話と紙とを相互作用させる技術への関心が高まってきている。例えば、既存システムにおいては、紙文書中のテキスト中のスペースの配置などで定まる区画を識別することで文書を識別する技術を用いているが、これはテキストであることが前提でありかつ言語依存性のある手法である。つまりこのシステムは、ドキュメント中の図、写真、地図といった画像ベースのコンテンツや、例えば日本語や中国語のように単語間にスペースを持たないために区画分けが難しい言語に対しては、利用することができない。また、このシステムにおける応用例であるマルチメディアとのリンクは、このようにテキストの区画のレベルで生成した上で閲覧可能とされるものなので、トークン（例えば、個々の英単語、日本語や中国語の文字、あるいは数学の記号など）やピクセルレベルでの精細な設定することができない。

これとは別のシステムとして、写真や地図などの画像ベースの文書の取り扱いを対象とするものがある。そうしたシステムの例では、スケール不変特徴変換（SIFT：Scale Invariant Feature Transform）を印刷された写真を認識するためのアルゴリズムとして用いる。製図用の他のシステム例では、地図中の領域でユーザが撮影したスナップショットに対して、その領域に一致するデジタル化されたマップ画像を検索するものがある。この例は、画像コンテントと地図とを対応付けるだけであり、検索されたコンテンツに含まれるトークンやピクセルレベルの内容を操作するものではない。

また、拡張現実（AR:Augmented Reality）技術の一つとして、携帯電話を「魔法のレンズ」として用い、ユーザが紙の地図上の注目領域（Point of Interest）を閲覧することを可能とし、該注目領域とインタラクションすることを可能とするものがある。例えば、ユーザが携帯電話に搭載されたカメラでサンフランシスコの物理的な地図上のエリアを撮影すると、撮影されている地図の画像に動的なコンテンツ（例えばATMの場所など）が合成されてモニタに表示される。しかし、既存のARシステムは、地図上の領域を識別するためのマーカー画像に依存しており、撮影された画像に対する指定とクリックといった操作は、システム側で予めインタラクティブな操作が可能な場所として設定した注目領域に限定される。

紙を撮影して得られた情報の利用は他のシステムにおいても実現されている。例えば、あるシステムではドキュメント画像から情報を抽出することが可能である。他の例としては、机上にある紙文書をオーバーヘッドビデオカメラで撮影し、文書のビデオ画像に対応するテキストコピーを実行することができる。これらの２つの例は紙文書から得られる情報のデジタル化を目的としたものであり、ユーザと紙ドキュメントとのインタラクションを目的としたものではない。反対に、第３の例としては、システムが紙文書を、机を見渡す場所にあるカメラとプロジェクタとで追跡し、拡張情報を投影することで、ユーザと紙との多様な相互作用を支援するものがある。また、ペンにカメラを設置し、ユーザが紙上へ手書きしているときの、ペン先の小さい領域中の画像を撮影する例もある。撮影された画像は、特別のコマンドを実行させるため、あるいは、光学的文字認識（OCR)を用いてテキスト抽出するために、デジタル的に認識される。この結果、ハイパーリンクなどの特別なマークとして認識されない撮影画像データはOCR処理に提供され、対応するテキストが抽出される。この認識されたテキストは、実行コマンドのパラメータとして提供されるか、入力情報として用いられる。こうしたシステムは、例えば、ページ番号を記録するときに有効である。

なお、紙文書の識別に関してはかなり多くの研究がされている。この技術領域で頻繁に用いられている方法はページや領域にタグ付けするものである。あるシステム例では、RFIDタグを紙の地図中の注目領域を認識するために用い、他の例では本のページを識別するために用いている。他のシステムではマーカー画像を文書認識に用いたり、注目領域を特定するために人間には不可視な赤外線反射マーカーを利用したりする。

紙中のコンテンツとインタラクションをする場合、空間位置の高精細さを実現し、一方で見づらさを低減するために、基準パターン技術を用いることもできる。紙の背景を特別な小さいドットパターンで覆うことにより、システムは、ユーザが手書きを行うときのペン先の位置を正確に計測することができる。この変形手法としては、視覚的な妨害を避けるために不可視トナーを採用するアイデアもある。

特別なマーカーやパターンを用いて紙への情報付加を行うときの不便さを解消するために、ある既存システムでは、コンテンツベースのドキュメント認識技術を利用している。このようなシステムに加えて、離散コサイン変換（DCT)係数、OCRと線輪郭、SIFTベース特徴などといった、紙ドキュメント認識用のシステムがある。

しかしながら、紙との相互作用をより効果的に行うことが可能な技術が望まれる。

特表２００９−５０６３９２号明細書

本発明は、表示媒体上に表示されたドキュメントをカメラにより撮影し、このドキュメント中に含まれるコンテンツに対して、従来よりもより自由度の高い操作を可能とすることを目的とする。

本発明のドキュメント操作システム、方法およびコンピュータプログラムは、上記課題を解決するために次の特徴を備える。

本発明の第１の態様であるドキュメント操作システムは、複数のドキュメントのデジタルコピーを記憶する記憶手段と、任意のドキュメントのスナップショットを撮影するカメラと、前記カメラで撮影される前記スナップショットを表示するディスプレイと、前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも１つの前記複数のドキュメントを検索する検索手段と、前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を判別する位置判別手段と、検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信する受信手段と、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作する操作手段と、を備えることを特徴とする。

また、第２の態様としては、判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示する表示制御手段を備えることを特徴とする。

さらに第３の態様としては、前記表示制御手段は、撮影された前記スナップショットを、対応する前記デジタルコピーの情報を用いる画像に置き換えて前記ディスプレイに表示することを特徴とする。

また第４の態様としては、前記表示制御手段は、前記ディスプレイに、撮影される前記スナップショット中の任意の位置を指定するための指定部を表示するとともに、前記指定部により指定された前記スナップショット中の位置に対応する前記検索されたドキュメントのデジタルコピー中の位置の画像を前記ディスプレイに表示し、前記操作手段は、前記指定部により指定された位置にある前記ドキュメントのデジタルコピー中の情報を操作するための指令手段を更に備えることを特徴とする。

また、第５の態様としては、指令手段により指定される操作が前記デジタルコピーの編集操作であって、前記ディスプレイ上での編集操作の処理結果が前記記憶手段に記憶されることを特徴とする。

また、第６の態様としては、前記検索手段による検索に先立ち、前記複数のドキュメントに関する局所画像特徴が予め抽出されるとともに前記記憶手段に記憶されていることを特徴とする。

また、第７の態様としては、前記スナップショットあるいは前記スナップショットの局所画像特徴に関する情報を前記検索手段に送信する送信手段を更に備え、前記記憶手段、前記検索手段および前記位置判別手段が、前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段とは、ネットワークを介して分離して構成されていることを特徴とする。

また、第８の態様としては、前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段が一体化された携帯端末であることを特徴とする。

また、第９の態様としては、前記表示制御手段は、前記デジタルコピーの情報を用いた前記判別された位置に対応する前記ドキュメントの画像の前記ディスプレイへのカメラによる表示の後、前記カメラによる前記任意のドキュメントの撮影位置の変化を検出するともに、前記撮影位置の変化に応じて、前記判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示することを特徴とする。

また、第１０の態様としては、前記局所画像特徴が、局所不変画像特徴であることを特徴とする。

本発明の他の態様であるドキュメント操作方法は、複数のドキュメントのデジタルコピーを記憶手段に記憶し、任意のドキュメントのスナップショットをカメラで撮影し、前記カメラで撮影される前記スナップショットをディスプレイに表示し、前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも１つの前記複数のドキュメントを検索手段により検索し、前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作手段で操作することを特徴とする。

また、本発明のさらに他の態様であるコンピュータプログラムは、コンピュータに、複数のドキュメントのデジタルコピーを記憶手段に記憶し、カメラで撮影した任意のドキュメントのスナップショットを取得し、前記カメラで撮影される前記スナップショットをディスプレイに表示し、前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも１つの前記複数のドキュメントを検索手段により検索し、前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、ユーザからの入力を受け付ける操作手段で受け付けて、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を前記操作手段により受け付けた操作を実行させるためのプログラムである。

なお、上記記述あるいはこれ以降の記述は例示かつ説明を目的とするものであり、クレームした発明やその応用例を限定するためのものではない。

従来よりも自由度の高いドキュメントのコンテンツの操作が可能となる。

本発明の一実施形態に関わる、紙ドキュメント中のキーワードの定義を検索する目的のフレームワークの一例を示すものである。ショッピングモールで店舗のクーポンを検索する場合のフレームワークの一例を示すものである。紙ドキュメント中の対象物を検索するフレームワークで用いる手法のフローチャートの一例を示すものである。高速不変変換（FIT)計算により新規な特徴セットを計算する手法のフローチャートの一例を示すものである。 FIT画像記述子の構築手法を説明するための模式図である。画像記述子を構築するための方法のフローチャートの一例を示すものである。画像記述子を構築するための方法のより具体的な一例のフローチャートを示すものである。第１サンプリングポイントの副座標系の模式図である。携帯端末と紙ドキュメントを用いたデジタル操作を実現するフレームワークの模式図の一例である。携帯端末と紙ドキュメントを用いたデジタル操作を行うための方法に関するフローチャートの一例である。コマンドシステムを用いて、紙−携帯端末間の操作を行う方法に関するフローチャートの一例である。携帯端末で撮影された、低品質で、歪んだ画像の一例を示すものである。携帯電話に表示されるスナップショットとおよび改善されたドキュメントの一例を示すためのものである。オリジナルによる改善手法のフローチャートの一例を示すものである。紙、携帯電話のスクリーン、デジタルドキュメントの座標系の一例を説明するため図である。オリジナルによる改善手法で用いられる変換マトリクスの形成方法のフローチャートの一例を示すものである。携帯端末のカメラで撮影されたスナップショットの変換マトリクスを使ってオリジナルコンテントを取得した結果の一例を示すものである。スウィープモードでカメラおよび携帯端末がリアルタイムで操作されている様子の一例を示す模式図である。スウィープモードでコンテントを選択するためにユーザにより入力される、様々な電話ジェスチャの例を示すものである。スウィープモードでコンテントを選択するためにユーザにより入力される、様々な電話ジェスチャの例を示すものである。スウィープモードでの携帯と紙との間のリアルタイムな操作を通じて、高解像ドキュメントが提供される方法のフローチャートの一例を示すものである。本発明の一実施形態で使用されるコンピュータプラットフォームの一例を示す図である。本発明で使用される携帯端末のプラットフォームの一例を示すブロック図である。

以下の詳細な説明において、対応する図面中の符号は、同じ機能要素については同様の番号を付してある。これらの図面は例示であって、その手法を限定するものではなく、個々の実施形態と適用例は今回の発明の原理を示すためのものである。これらの適用例は当業者が実施可能な程度に十分な詳細が記載されており、他の適用例への適用、構成の変更や各構成要素の変更および／または置き換えが、本発明の範囲および思想から逸脱することなく適用できることは理解されるだろう。従って、以下の詳細な説明は限定的に解釈されるものではない。加えて、記述される多様な実施形態は、一般用のコンピュータ上で動作するソフトウェアの形態、専用のハードウェアからなる形態、あるいはソフトウェアとハードウェアとの組み合わせにより実現されるものである。

紙ドキュメントの識別において、多くの既存システムは様々な条件および制約を有する。あるシステムではRFIDタグのような電子マーカーを紙に埋め込み、ドキュメントの識別に用いている。こうしたシステムでは低い空間解像度と高い製造コストが問題となる。あるシステムでは、２次元バーコードのような光学マーカーを使って、紙の地図上の特定の地理上の領域を示し、ユーザがカメラ付き携帯電話を用いて、関連付けられたウェブサイト上の天気予報および関連情報を検索することができる。一般に、マーカーの導入はオリジナルのドキュメントに変更を加える負荷が増え、視覚的に邪魔になって、重要な表示物が不明瞭になってしまう場合もある。こうした問題に対して、既存システムでは、コンテントベースのアプローチを採用し、紙上のテキスト区画を識別するための単語の空間配置といった、局所的なテキストの特徴を利用している。しかし、これらのシステムはテキストの性質に大きく依存しており、画像コンテントのドキュメントの区画や、日本語や中国語のように明確な空白がトークンの間に無いあるいは少ない言語にはうまく機能しない。トークンとしては、単語、文字、記号も考えられる。

デジタルコンテントに対する操作の精緻さに関しては、ほとんどの既存システムは相対的に粗い。テキストの区画を用いるシステムにおいては複数の単語のグループで操作する。あるものは地図中の予め設定した地図上の領域に注目し、あるものはデジタル写真ファイルをシェアすることを狙いとする。しかしトークンの選択自由度を高め、紙上での指定レベルを細かくする研究はあまりなされていない。例えば、トークンに基づく操作に関しては、ユーザは、例えば英単語、漢字、数学記号などの一つのキーワードを紙ドキュメント中で検索したい。また、画像ベースの操作の例として、例えばコラージュを作成するために友人のすべての写真を集めるときに、印画紙に印刷された写真の中で友人が写っている部分の選択を望む場合もある。残念ながら、既存のシステムでは、こうした機能をサポートしているものはない。

これに対して、本発明では、表示物（紙へのハードコピー、ディスプレイへ表示された画像など他の表示媒体上に顕在化された画像でもよい。以降、代表例である紙へのハードコピーを用いて多くは説明してある。）に対して、トークンをサポートし、より精緻なポイント（点）レベルでの操作を可能とするフレームワークを提供することを一つの目的とする。本発明のフレームワークでは、表示物に対応するデジタルファイルをメモリに保持しておき、表示物をこのデジタルファイルのプロキシ（代理）として取り扱い、ユーザは例えばカメラおよびディスプレイ付き携帯端末を用いて、表示物に対するインタラクションを通じてデジタルドキュメントにアクセスし、操作する。

本発明の一つの目的であるフレームワークは、例えば、文書検索システムの最上層に構築される。本発明の一実施形態では、システムが局所画像特徴記述子を用いてドキュメントの特徴を判断するので、区画レベルでのマルチメディアアノテーションよりも精緻なドキュメント操作を可能とする。さらに、既存のARシステムは画像マーカーに依存して地図の領域を特定しているが、本発明の一実施形態に関わる地図アプリケーションは視覚マーカーを使用せず、ユーザ指定の注目領域を作成することを可能とする。

そして本発明の好ましい一例は、通信、コンピュータ処理、フィードバックの提供が可能な携帯端末の優位性を合わせ持つ、カメラおよびディスプレイの一体化された携帯電話等の携帯端末（以下、単に携帯端末と略することがある）でドキュメントのコンテントにアクセスし、操作できるようにすることである。

また、本発明は、カメラで撮影した画像およびドキュメントのハードコピーや他の具現化された表示（電子ペーパや液晶ディスプレイ上でのドキュメントの表示など）間の、言語依存性の無いドキュメントコンテンツの操作のフレームワークを提供する。本発明の一例である、携帯端末を用いる場合においては、PCやラップトップコンピュータが無い状況でもドキュメントの操作をすることが可能となる。言語依存性のある紙ドキュメント中のテキストの区画に対するデータのリンクをサポートするだけのシステムと異なって、本発明はドキュメントの言語により制限されない。また、画像ベースとテキストベースのいずれのドキュメントも支援対象となる。さらに、本発明においては特別なマーカー、RFIDあるいはバーコードなどを紙上に用意する必要がない。加えて、本発明は、より精緻なドキュメントトークンの指定をサポートし、従来のドキュメント中のテキスト区画との粗いデータの関連付けではなく、点（ドット）のレベルでの操作も可能とする。ドキュメントのトークンとしては、例えば単語、記号、文字が含まれる。日本語や中国語の文字、数学記号、アイコン、人の写真中の一部である唇や目などを割り当ててもよい。したがって、トークンはテキスト中の単語である必要はない。

本発明の一形態に関わるフレームワークは、文書検索システム中に設けられてよい。例えば、本発明に基づく地図アプリケーションは予め注目領域を設定するためのマーカーの使用を避けることが可能なので、ユーザの定義による注目領域の作成が可能である。

当業者には知られているように、ドキュメント取り扱いシステムは、携帯端末を入力装置として利用できるように開発される。こうしたシステムにおける典型的な操作というのは、携帯端末を使って、紙ドキュメント中の領域を識別する、対応するデジタル対象物を検索する、そしてその対象物にユーザが指定した操作を適用するというものである。操作粒度はデジタル操作が適用される最小のドキュメント対象物を表し、粗から密まで様々である。例えば、操作粒度が粗いレベルとしてはページ単位、ドキュメント単位であり、操作粒度が細かいレベルとしては、点単位、トークン単位の操作が挙げられる。区画レベルの操作は、粗から密の間のどこかに当たる。こうしたシステムでは、ドキュメントの制約は、厳しいものから緩いものまである。電子マーカーを用いるドキュメントの操作は、マークの付加が必要なため、厳しい条件や制約がある。

一方で、通常のドキュメントを利用するシステムにおいては、追加となる識別マーカーが必要ないために、ドキュメントに対する制約が緩くなる。制約的なドキュメントと一般的なドキュメントとを扱うシステムを比較すると、光学的マーカーを付けたドキュメントを操作するシステムとテキストドキュメントを操作するシステムとは、やや制約のあるシステムといえる。

本発明の一形態では、緩い制約条件かつ精細な粒度でドキュメントを処理することが可能である。すなわち、特別な位置検出用のタグやマーカーを付加していない通常のドキュメントを取り扱うことができる。さらに、本発明のシステムおよび方法は、点レベルあるいはトークンレベルの操作に用いることができると同時に、ページ単位、ドキュメント単位の操作といったより粗いレベルにも用いることができる。こうした点で、本発明のシステムや方法は既存のシステムより優れている。

図１Ａは、本発明の一実施形態であって、紙ドキュメント中にあるキーワードの定義を検索するためのフレームワークを用いた、ユーザの操作例を示す。第１に、ユーザは操作コマンド「Find」（検索）を選択する（102）。ユーザは、ビューファインダ内の十字線を対象となる単語に大まかに当てて、紙ドキュメントのスナップショットを撮影し、要求を送信する（104）。この第１回目の撮影画像は、携帯電話の内蔵カメラのレンズの性能が低い、照明が悪い、撮影方向の歪み等のために低品質かもしれない。スナップショットを受け取ると、フレームワーク（システム）はデータベースから高解像度のデジタルデータのページを検索し、ユーザにスナップショットに対応する部分を高解像度のデジタルデータを使ってビューファインダに表示させ、初期選択に対するフィードバックを提示する(106)。高解像度のデジタルページの検索とともに、その領域に関連付けられた他のメタデータもまた検索される。メタデータの例としては、テキストデータ、アイコン、これらの範囲を示す領域の情報等があげられる。こうしたデータは、後でユーザが携帯端末上で操作を行う特定のターゲットを構成する。ユーザが選択を変更する必要があれば、再度コマンドを発行する（106）。ドキュメント全体の検索が終了したら、フレームワークはページのサムネイル中のヒット箇所をハイライトし、ユーザが選択した単語に関連する情報を見出しやすくする（108）。

図１Ｂは、本発明の一実施形態におけるユーザの操作例を示し、ショッピングモール中にある店舗のクーポンを探す例であり、携帯電話カメラのビューファインダ内の十字カーソルをモールの地図１１０に記載された店舗、例えば１１２に合わせる。本発明の一実施形態のフレームワークは、スナップショットを受信すると、データベースから、十字カーソルの位置に対応するメタデータとともに高解像度のデジタル地図を検索する。一実施形態では、メタデータとしては、地図上でユーザに指定された店舗の座標を含んでも良い。他の形態例としては、検索された高解像度のデジタル地図を画像解析して得られた、マップ上の店舗を識別する数字であってもよい。検索されたメタデータを使ってユーザがターゲットとした店舗を識別してもよい。一旦、ターゲットとした店舗が識別されると、店舗の識別情報を用いて、ターゲットの店舗のクーポン１１４〜１１８を検索して入手でき、検索されたクーポンを、高解像度のデジタル地図と共に、あるいは高解像度のデジタル地図を付加せずに、ユーザの携帯電話に送信する。

なお、変形例として、ユーザは特定の店舗には携帯電話のカメラで照準をあてることはせずに、単にマップの写真やその領域のスナップショットを撮影する。その後、システムがデータベースを検索し、ユーザに高解像度のマップを送信する。ユーザは引き続きスタイラスや指を使ってタッチスクリーン上の地図の領域に円を描き、ユーザの選択に応答して、本発明の一実施形態のシステムは特定された領域にある店舗で利用できるクーポンを検索し、ユーザに入手できたクーポンを提供する。

また、本発明のフレームワークは地図アプリケーションのみで利用可能というわけではない。ユーザはどのような図形的なコンテントのスナップショットを撮影する場合でも、携帯電話のカメラを利用することができるので、本発明のシステムの一実施形態ではユーザによって撮影されたスナップショットとそのスナップショットに関連するメタデータに基づいて様々な種類の情報を検索することできる。

図２は、本発明に関わる一実施形態であって、紙ドキュメント中の主題（対象）を見出すためのフレームワークを用いる方法のフローチャートを示す。検索する主題が例えば、ドキュメント中の「イラスト」という言葉に関するものだとする。この方法はステップ２００から開始される。２０１でユーザはコマンドを指定する。ここでのコマンドは図１における「検索」に当たる。あるいは、「ウェブ検索」「コピー」「注釈」といった指令であってもよい。２０２でユーザは大まかにターゲットに当たる単語にカメラを向け、紙ドキュメント中に登場する、この例では「イラスト」という検索対象としたい単語に十字カーソルの照準を合わせたスナップショットを撮影する。この結果、２０２ではその単語あるいはフレーズを含むドキュメントの一領域のスナップショットが、選択したコマンドの主題としてフレームワークに供給される。２０３では、ユーザは、システム処理されたスナップショット中で選択したターゲットとなる単語の精査と確認を行うことができ、そのスナップショットはフレームワークにより自動的に指定した領域が拡大され、十字カーソルによって当初指定された単語がハイライト処理される。２０４では、システムはシステム処理後の画像内で行われた主題の変更や決定を受信する。２０５で、フレームワークは、ハイライトされた主題についてコマンド処理されたドキュメントページを表示する。例えば、コマンドが「検索」で主題が「イラスト」であるとき、ドキュメントのページ中に発見される単語「イラスト」をハイライトしてそのドキュメントを表示する。２０６でこの方法は終了する。

２０３でユーザに提示される、システムにより画像品質が改善された表示は、クライアント端末として機能する携帯電話と通信を行うサーバに保持されるデータベースから受信される。本発明の一形態では、携帯電話内の抽出手段でスナップショット中の固有の特徴を抽出し、保持される高品質のデジタル画像と比較するために該固有の特徴がデータベースに送信される。固有の特徴は、様々な手法で得られる画像記述ベクトルの形態であってもよい。データベースに記憶される高品質の画像もまた同様の画像記述ベクトルを解析処理しておく。本形態においては、スナップショットの画像記述ベクトルは記憶された画像の画像記述ベクトルに対して比較される。あるいは、スナップショットの画像データがサーバに送られ、サーバ側でその画像の画像記述ベクトルを抽出するようにしてもよい。

既存のシステムと異なり、本発明に関わる実施形態ではテキスト（文字列）とグラフィックの両方のドキュメントに対応しており、マーカーや特定言語への依存性がない。対応するポイントマッチングによる画像記述子の生成の一例について、図３〜図６を用いて説明する。ただし、画像記述子としては、画像領域を小領域に区分したときの濃度分布に基づいて局所的な画像特徴を記述した局所画像特徴記述子であればよく、多段階のスケール（拡大縮小）の画像から抽出した特徴を連結して記述子を構成するSIFT, SURFといった局所不変画像特徴記述子を利用することが特に望ましい。ただし、このような画像記述子の中でも、以降で説明するFIT法の画像記述子が、データ量が少なく、高速かつ高精度を両立できる点でより望ましい。

図３は、高速不変変換（FIT：Fast invariant transform）による計算により新規の特徴セットの構築を行う方法のフローチャートを示す。ここで例示するFIT特徴の構築プロセスはステップ３００から開始される。３０１で入力画像が受信される。この段階かこれより後で、他の入力パラメータを受信してもよい。３０２で、入力画像はガウシアンピラミッドを構築するためにガウス分布により画像強度（例えば、濃度、輝度など）がぼかされた画像(ガウシアンブラー処理：Gaussian-blurred)を段階的に形成する。３０３で、２つの隣接するスケール間のガウス分布によりぼかされた画像間の差分を計算し、DoG（差分ガウシアン：Difference of Gaussian）ピラミッドを構築する。３０４で、キーポイントが選択される。例えば、DoG空間における極大値あるいは極小値を利用し、その空間位置とその極大値あるいは極小値が計算されるスケールを、DoG空間とガウシアンピラミッド空間におけるキーポイント位置に用いる。ここまでの行程はFITの場合でも、周知のSIFT法で画像特徴を取得する場合と同様である。

３０５において、第１サンプリングポイントを呼ばれる記述子サンプリングポイントはガウシアンピラミッド空間中の各キーポイントの位置に基づいて決定される。第１サンプリングポイントと呼ぶのは、後で第２サンプリングポイントと呼ぶ点と区別するためである。第２サンプリングポイントのいくつかは、後で図５Ａに関する説明で詳説するが、各第１サンプリングポイントと共通している。各第１サンプリングポイントと対応するキーポイントは座標空間−スケール空間（ガウシアンピラミッドが構築される、画素に対応する２次元の座標空間とこれに垂直な１次元のスケールを示す軸で定義される空間）における３次元ベクトルによって定義される。すなわち、キーポイントから開始し対応する第１サンプリングポイントで終了するスケール依存の３次元ベクトル（言い換えるとキーポイントからの相対的な空間位置）が、キーポイントから第１サンプリングポイントを決定するために利用される。

３０６において、各第１サンプリングポイントにおけるスケール依存の勾配が計算される。これらの勾配は第１サンプリングポイントとこれに関連付けられた第２サンプリングポイントとの間の画像強度の差分に基づいて決定される。ただし画像強度の差分が負である場合、第２サンプリングポイントの強度が第１サンプリングポイントの強度よりも強いことを示しており、この場合はここでは差分はゼロとする。

３０７では、一つのキーポイントに関するすべての第１サンプリングポイントの勾配（ベクトル）が、特徴記述子としてのベクトルを構成するように結合される。３０８で処理を終了する。

図３に示すFITは、良く知られた従来のSIFT特徴の構築プロセスよりも高速であるが、その理由を説明する。各１２８次元のSIFT記述子に対して、４×４のサブブロックからなるブロックがキーポイントの周囲に設定されており、各サブブロックは、全体が１６×１６画素のうちの少なくとも４×４画素が含まれるように設定される。したがって、勾配を求めるには、１６×１６＝２５６画素分あるいはキーポイントの周囲の幾つかをサンプリングした点における計算が必要になる。さらに、各サブブロックに４×４画素以上の領域を含むようにすることもよく行われている。各サブブロックが４×４画素以上の領域を含む場合、さらに多くの数の点に関して勾配を計算しなければならなくなる。勾配はベクトルであり、値と方向あるいは回転を含む。各画素における勾配の強度ｍ（ｘ、ｙ）と回転θ（ｘ、ｙ）を計算するには、この方法の場合、５回の加減算、２回の掛け算、１回の割り算、１回の平方根、そして１回のアークタンジェント計算が必要となる。この方法は１６×１６ガウシアンウィンドウ内の２５６の勾配値についての重み付けもまた必要とする。もし勾配値が各点について正確に計算されるべきであるなら、SIFTはスケール空間内での内挿計算も必要とする。計算コストを考慮すると、SIFTの実装は、勾配計算の負荷が通常非常に高くなる。

一方で、FITプロセスを用いた新規な方法の一例では、単純な40回の加減算の操作を必要とする。もしより正確な勾配の計算を行うためにスケール空間の内挿を用いたとしても、４０個の勾配値の内挿計算の計算コストは比較的小さい。一方で結果的に得られる、FITの特徴記述子としての精度はSIFTと同等であった。なお、ここでは特定のケースで比較を行っているが、勿論これに限定される訳ではなく、SIFTよりもFITの方が、同等の性能を得るのに必要とされる、計算コストあるいはコンピュータの性能を低くできる。

図４はFIT記述子を構築するための概要を示している。

図３におけるフローチャートの各ステップが図４に概略的に示されている。ガウシアンピラミッド３０２を構築するための画像のぼかし（blurring）とDoG空間を得るための差分計算は左上で示され、キーポイントの計算は右上角３０４で示される。キーポイント６０１に関する５つの第１サンプリングポイント６０２が左下３０５に示される。座標空間−スケール空間３０６における各第１サンプリングポイントでの勾配計算と、特徴記述子ベクトル３０７へ至る５つの第１サンプリングポイントからの勾配の結合について右下角に示されている。

図５Ａは、この新規手法における画像記述子の構築方法のフローチャートである。

図５Ａと図５Ｂは、図３の３０４〜３０７の工程を参照することで理解が容易になると思われるが、ここで示される画像記述子の構築方法は図３の手法に限られるものでなく、入力パラメータの受信、直接のキーポイントの受信あるいはスケールを決定するガウシアンピラミッドの構築も含むような異なるプロセスを用いて行われても良い。しかし、図５Ａおよび図５Ｂの方法を行うステップでは、図３に示すキーポイントを決定するために用いられる差分ガウシアン空間の構築を含めても含めなくてもよい。キーポイントは他の方法で配置してもよく、スケールが変化するガウシアンピラミッド内にある限りにおいては、図５Ａおよび図５Ｂの手法は有効である。

この方法は工程５００から開始される。５０１でキーポイントが配置される。キーポイントは図５Ｂに例示するフローチャートに示す差分ガウシアン空間の極大極小値を利用する方法を始めとして多くの異なる手法を用いて設定することができる。５０２では、第１サンプリングポイントは、スケールを一つのパラメータとして含む入力パラメータに基づいて決定される。５０３では、第２サンプリングポイントは、やはりスケールを含む入力パラメータのいくつかを用いて、各第１サンプリングポイントに関して決定される。５０４では、第１画像勾配が各第１サンプリングポイントごとに得られる。第１画像勾配は各第１サンプリングポイントと対応する第２サンプリングポイント間の画像強度や他の画像特性の変化を表す第２画像勾配に基づいて決定される。５０５で、キーポイントでの記述ベクトルは、キーポイントに応じたすべての第１サンプリングポイントに関する第１画像勾配を連結（concatenate）することで生成される。５０６で方法は終了する。

図５Ｂは、本発明の新規な方法の一実施形態に関わり、画像記述子を構築するための方法の一例に関するフローチャートを示す。

この方法は５０７から開始される。５０８において、キーポイントは差分ガウシアン空間中に配置され、各キーポイントを原点とする副座標系が設定される。５０９では、一つがスケールを決定し、他の２つがキーポイントを原点とする副座標系における第１サンプリングポイントの座標を定めるパラメータを含んだ入力パラメータに基づいて、５つの第１サンプリングポイントが決定される。第１サンプリングポイントは、キーポイントを原点とし、ガウシアンピラミッド内の異なるスケール中にある第１サンプリングポイントが終端として決定される、予め距離と方向が定められたベクトルによって定義される。５１０で、各第１サンプリングポイントに対応して８個の第２サンプリングポイントを決定するために、やはりスケールを含むとともに、第１サンプリングポイントに対する円の半径を決定するためのパラメータを含む入力パラメータを用いる。８個の第２サンプリングポイントは、円の中心となる第１サンプリングポイントのスケールに応じて半径が変化する円によって決定される。第２サンプリングポイントはキーポイントを原点とし、第２サンプリングポイントを終点とするベクトルによって決定される。５１１で、各第２サブサンプリングポイントでの第２画像勾配ベクトルを決定する。５１２では、第１画像勾配を５つの第１サンプリングポイントごとに得る。第１画像勾配は、第１サンプリングポイントの８つの第２画像勾配を要素ベクトルとして含む。５１３で、キーポイントの記述ベクトルは、キーポイントに対応する５つの第１サンプリングポイントのすべてに関する第１画像勾配を連結（concatenate）して生成される。５１４で方法は終了する。

図６は、本発明の一形態における、画像記述子を構築する方法に関する。

ガウシアンピラミッドおよびDoGピラミッドは連続する３次元の空間−スケール空間（spatial-scale space）に構築されると考えることができる。この連続する３次元の空間−スケール空間の座標系中で、空間平面は２つの垂直軸ｕおよびｖで定義される。第３の軸はスケール軸であり、空間軸ｕおよびｖで形成される平面に垂直な第３の軸ｗによって定義される。スケール次元はガウシアンフィルタのスケールを示す。このため、空間−スケール空間は空間平面と第３の軸であるスケールベクトルとにより形成される。画像は２次元空間平面内に形成される。画像のぼかし（blurring）は第３の次元であるスケール次元に沿って段階的に施される。各キーポイント６０１は、ｕ、ｖ、ｗ軸の原点となる局所的な副座標系の限定とされる。

この空間−スケール座標系において、画像中のポイントはＩ（ｘ，ｙ，ｓ）で表現することができ、（ｘ，ｙ）は空間領域（画像領域）における位置に対応し、ｓはスケール領域におけるガウシアンフィルタのスケールに対応する。この空間領域は、画像が形成される領域である。したがってＩは座標（ｘ，ｙ）でスケールｓのガウシアンフィルタによりぼかされた画像に対応する。キーポイントを原点とする局所副座標系は空間−スケール空間中の記述子の詳細を記述するために定められる。ここでの副座標系では、キーポイント６０１自体は座標（０，０，０）とし、ｕの方向は空間領域におけるキーポイントの配位に沿わせてもよい。キーポイントの配位はSIFT法と同様の手法で決められる支配的勾配ヒストグラムビン(dominant gradient histogram bin)によって決定される。空間領域におけるｖ方向は、ｕ軸を空間領域内で原点を中心に時計回りに９０度回転して得られる。ｗ軸はスケールの変化に対応しており、空間領域に垂直であり、スケールの増加方向に伸びる。これらの方向は例示的なものであり計算を容易にするために選択したものである。副座標系に加えて、スケールパラメーターｄ、ｓｄ、およびｒは、第１サンプリングポイント６０２を定義し、各第１サンプリングポイントの周囲での情報収集の制御を行うために用いる。

ここで示される実施形態においては、各キーポイント６０１に関して記述子の情報は、５つの第１サンプリングポイント６０１，６０２（キーポイント自体は含んでも含まなくてもよい）において収集される。図６は、キーポイント６０１を原点とする副座標系における第１サンプリングポイントの分布を表している。ここで第１サンプリングポイントを、副座標系における原点（０，０，０）からサンプリングポイントへの３次元ベクトルＯｉ（ここでｉ＝0，1，2，3，4）と定義する。このため、第１サンプリングポイントはキーポイントを（０，０，０）と定義した場合、次のベクトルにより表される。
Ｏ₀ = [0 0 0]
Ｏ₁ = [d 0 sd]
Ｏ₂= [0 d sd]
Ｏ₃= [-d 0 sd]
Ｏ₄= [0 -d sd]

各第１サンプリングポイントベクトルＯｉにおいて、最初の２つの座標はベクトルの終点であるｕ座標およびｖ座標を示し、第３の座標はスケールに対応するｗ座標を表す。

なお、異なる数の第１サンプリングポイントを使用することももちろん可能である。

これらの図に示される実施形態において、第１サンプリングポイントは原点つまりキーポイント６０１自体もまた含む。しかし、第１サンプリングポイントはキーポイントを含まないように選択してもよい。第１サンプリングポイントの座標を定めるとき、これらの点は異なるスケールから選択される。この形態においては、第１サンプリングポイントは２つの異なるスケール、０およびｓｄから選択される。しかし、第１サンプリングポイントはそれぞれ異なるスケールで選択されるか、異なるスケールの組み合わせから選択されてもよい。なお第１サンプリングポイントがすべて同じスケールに位置するものから選択されたとしても、後で説明するように本方式は第１および第２サンプリングポイントから選択する点でSIFT法とは区別される。

本実施形態において、各５つの第１サンプリングポイントにおいて、８つの勾配値が計算される。最初に、ベクトルＯ_ijで表される８つの第２サンプリングポイントが、各第１サンプリングポイントの周囲に、以下のベクトルＯ_i,によって定義される。
Ｏ_ij - Ｏ_i, = [r_icos (2 π j/8) r_isin (2 π j/8) 0]
i=0のとき。ここで j= 1, …, 7
Ｏ_ij - Ｏ_i, = [r_icos (2 π j/8) r_isin (2 π j/8) sd]
i≠0のとき。ここで j= 1, …, 7

上述の数式中で、Ｖ_iは、スカラー成分[V_i0, V_i1, V_i2, V_i3, V_i4, V_i5, V_i6, V_i7]と方向[Ｏ_i-Ｏ_i0, Ｏ_i-Ｏ_i1, Ｏ_i-Ｏ_i2, Ｏ_i-Ｏ_i3, Ｏ_i-Ｏ_i4, Ｏ_i-Ｏ_i5, Ｏ_i-Ｏ_i6, Ｏ_i-Ｏ_i7]を有すベクトルである。この方向ベクトルは、ベクトル長で除算することで正規化される。

スカラー値Ｉは、特定の場所における画像の強度レベルに対応する。スカラー値Ｉ_ijは、各第１サンプリングポイントにおける画像強度Ｉ（Ｏ_i）と、その第１サンプリングポイントを中心とする円上を等間隔で選択した８つの第２サンプリングポイントのそれぞれの画像強度Ｉ（Ｏ_ij）との差分で与えられる。もし、この画像強度中の差分が１以下であって負となる場合、これはゼロに設定される。この結果、成分の値V_ijは負の値を持つことが無くなる。各円に沿ってｊ＝0, …, 7の８つの第２サンプリングポイントが、５つの第１サンプリングポイントｉ＝ 0, … , 4ごとに存在する。このため、5つの第１サンプリングポイントのそれぞれに対応する１つの成分ベクトルＶ_iとなる、８つの成分ベクトルI_i0 Ｏ_i0/|Ｏ_i0|, … , Ｉ_i7Ｏ_i7/| Ｏ_i7|が存在する。各成分ベクトルＶ_iは８つの成分を有する。I_i0, … , I_i7 に対応する成分ベクトルは第２画像勾配ベクトルと呼ばれ、成分ベクトルＶ_iは第１画像勾配ベクトルと呼ばれる。

５つの第１サンプリングポイントにおける５つの第１画像勾配ベクトルＶ_iを結合することで、あるキーポイントにおける記述子ベクトルＶは、次の式で表される。
Ｖ = [Ｖ₀, Ｖ₁, Ｖ₂, Ｖ₃, Ｖ₄]

先の数式において、パラメータｄ、ｓｄ、ｒはいずれも副座標系のキーポイントのスケールに依存する。キーポイントのスケールはスケール値ｓによって記述され、整数あるいは、ベースとなる標準偏差あるいはスケールｓ₀あるいは他の方法で決定される値を非整数倍する値であってもよい。決定の仕方に関係なく、スケールｓはキーポイントの位置に応じて変化する。３つの定数ｄｒ、ｓｄｒ、そしてｒｒはシステムへの入力値として提供される。５つの第１サンプリングポイントを決定する値ｄ、ｓｄ、ｒは、３つの定数ｄｒ、ｓｄｒ、ｒｒをスケール値ｓとともに用いることで得ることができる。第１サンプリングポイントの周囲の第２のサンプリングポイントが位置する円の半径は、同じ定数の入力値を用いて得ることができる。第１および第２のサンプリングポイントの座標は次の数式から得られる：
d = dr ( s_i
sd = sdr ( s_i
r_i = r₀ ( (1+sdr)
ここで r₀ = rr ( s_i、s_iはｉ（i=0,1,2,3,4）によって変動してもよい
なお、本実施例では、ｓを特定のキーポイントに固定する。

上記すべての等式はスケールｓを要素として含み、スケールの関数として座標系が変化するような、スケール依存性をいずれもが持つ。例えば、各第１サンプリングポイントが位置する平面のスケールが、他の第１サンプリングポイントが存在するスケールと異なってもよい。このため、第１サンプリングポイントが変化すると、スケールｓは変化し、すべての座標ｄ、ｓｄｍおよび半径ｒも変化する。スケール依存性を有する限りにおいては、異なる等式が第１および第２のサンプリングポイントの座標を得るのに使用されてもよい。

場合によっては、各勾配ベクトルのスケールｓは計算により得られた、ガウシアンピラミッド内の画像平面間に位置してもよい。これらの場合、勾配値は一つの第１サンプリングポイントに近接する２つの画像平面に基づいてまず計算される。そして、ラグランジェ内挿を用いて、第１サンプリングポイントのスケールでの各勾配ベクトルが計算される。

本発明の一実施形態で用いられる新規な方法において、ガウシアンピラミッドを構築するために用いられる第１ガウシアンフィルタの標準偏差は、所定値としてシステムに入力される。この標準偏差パラメータはｓ₀として記述される。変数であるスケールｓ_iは、ｓ_i=ｍ_i ｓ₀といったようにｓ₀を整数あるいは非整数倍することで定義することができる。あるいは、ｓ_iの変形例としては、図２および図４で示すように各オクターブの最初と最後の平面の間に、３つの平面を嵌め込むようにして決定してもよい。

前述の新規な手法を用いた実施例において、ドキュメントのインデックス化そして検索をするために低次の画像特徴を用い、１０００ページのテスト用データセットに対して９９．９％の識別率を達成することができた。さらに、画素レベルからドキュメントレベルにわたる様々な粒度でのデジタル的な操作をサポートする。この特徴は携帯端末−紙間のインタラクションにおける入力言語を拡張するために利用される。本発明の一実施形態に関わるフレームワークは、より複雑なアプリケーションへの橋渡しとなる。単語検索機能に加えて、他の実施形態として、ウェブ検索、写真コラージュ、精細なマルチメディアアノテーション、コピー、ペーストといった技術をサポートすることができる、

検索の応用に加えて、上記実施例における単語の検索のために、本実施形態のフレームワークは既存のシステムでは提供されていない、多様な携帯端末−紙アプリケーションもまた可能とする。

ウェブ検索や辞書検索といった操作は、一般的にトークンレベルの操作であると考えられる。本発明の一形態においては、マーカーを含まない通常のドキュメントに対して同じ操作を行うことができる。人々は通常読書中に不慣れな単語に遭遇する場合がよくある。ウェブ検索をするために携帯電話に手でその単語を入力して検索することもできるが、本発明の一形態によれば、ユーザが検索操作をより便利な「ポイントアンドクリック」（内蔵カメラでのターゲットとなる単語の撮影および選択）の操作によって開始することが可能となる。同様の発明が電子辞書アプリケーションに対しても適用でき、選択した単語の発音やビデオインストラクションといったマルチメディア情報を提供することができる。ペーパーリンク（PaperLink)のようなOCRベースのシステムも辞書機能を提供するが、従来技術では一般のドキュメントに対しては、先に述べたトークンレベルの操作を行うことができない。

コピーアンドペーストの操作はコンピュータ上で最も頻繁に使用されるデジタル操作といえる。しかし、こうした有力な機能は通常紙ドキュメント上では利用することができない。本発明の一形態に関わるフレームワークは一般の文書に対してこの機能をサポートすることが可能となる。ユーザはテキスト、画像、表あるいはこれらの混合したコンテンツを含む任意の領域を紙から抽出し、システムのクリップボードに送り、その後電子メールやノートへそれらを転記したり、紙文書上にある単語や図形のアノテーションとして付加したりすることができる。他の既存のシステムでもある程度類似の機能をサポートしているかもしれない。しかし、これらのシステムでは、データの種類や付加してあるマーカーによって操作できる対象に通常制約がある。例えば、いくつかの既存システムではテキスト専用であり、一般の文書に対しては簡単には利用できない。

本発明の他の一実施形態は、複数の写真を組み合わせた写真コラージュを作成するものである。人々が実際に対面している状況では印刷された写真の方がデジタルデータを取り扱うよりも便利な場合もある。しかし、このような物理的な物は、多様な視覚的な効果を与える強力なデジタル処理の恩恵を受けることができない。既存のシステムのいくつかでは、ユーザがプリントされた写真に対応するデジタル写真を検索して共有することを可能としている。しかし、こうしたシステムでは、ファイル単位の粒度でしか機能しない。本発明の一実施形態においては、写真コラージュの操作として、より細かい粒度の写真操作で行うことを可能とする。例えば、ユーザは印刷されたコラージュの一部の写真領域、例えばガールフレンドの写っている部分、を選択し、様々な視覚効果を適用し、適当な写真コラージュ作成ツールを用いてコラージュを作成する。そしてユーザはコラージュのプリントを指示ししたり、他の人に電子メールで送信したりすることができる。

本発明の一実施形態として、配布した書類上の動的なコンテントを利用するということがアプリケーションとして考えられる。プレゼンテーションソフトウェアにより作成された印刷スライドはプレゼンテーションやレクチャーの配布物としてよく用いられる。紙の配布物は用意にマークをつけたり誘導したりできるものの、スライド中に埋め込まれた動的な情報（アニメーション、ビデオあるいは音声など）はスライドを印刷すると失われてしまう。そこで、例えば、適当なユーザインターフェースを介して、ユーザが紙上のビデオフレームウィンドウにカメラ付き携帯電話のカメラを向け、その電話上で再生されるマルチメディアファイルを検索することができる。同様に、スライド再生も行って、埋め込まれたビデオを見ることもできる。

以下では、本発明の一実施形態に関わるフレームワークの構成と、適用可能なアプリケーションの概要を示す。

本発明の実施形態においては、普通の紙ドキュメントを識別し、携帯端末−紙間の操作をデジタル処理へと結びつける。本発明の一実施形態では、カメラ付き携帯電話を用いたインターフェースで、ユーザがトークンおよび点（ドット）レベルのドキュメントのコンテントの操作をサポートする際の制約を緩和するものである。一般の紙ドキュメントの認識能力というのは、本発明の一実施形態においては、言語やマーカーへの依存性無しにドキュメントを識別するための能力である。カメラ付き携帯に基づくインターフェースにおける制約は、低品質な撮影画像や小さいディスプレイによるものである。ドキュメント認識とユーザインターフェース技術を統合することで、本発明の一実施形態では、言語に依存せずに、ドキュメントのハードコピーに対する多様な操作を、カメラ付き携帯電話を通じてサポートするフレームワークを提供する。操作されるハードコピーはマーカーが無くてよく、マーカーによってタグ付けなどがされている必要がない。ただし、マーカーが付加されたドキュメントもドキュメントの一種であるので、当然本発明のフレームワークを適用して利用することができる。

図７は、本発明の一実施形態に関わる、携帯電話およびドキュメントハードコピーを用いたデジタルドキュメント操作を実現させるフレームワークの概要を示す。特に、この図は本発明の一形態に関わるフレームワークを表し、データサーバ７０１、コマンドシステム７０２、そして幾つかのアプリケーションを含むドキュメントサービスパッケージ７０３を備える。コマンドシステム７０２とドキュメントサービスパッケージ７０３は、ここでは携帯電話７０６に内蔵され動作する。

携帯電話７０６はデータサーバ７０１のクライアントとして機能する。このため、以下の記述ではデータサーバと接続する携帯電話をクライアントと呼ぶ。

データサーバ７０１は、ドキュメントレポジトリとして機能する。一実施形態では、サーバ７０１は異なるコンピュータプラットフォーム上で実行されてもよい。あるいは、ドキュメントのスナップショットの撮影に用いるのと同じカメラ付き携帯電話上で実行されてもよい。プリンタ７０４は、サーバ７０１から受信するデジタルコピーを印刷するともに、ドキュメントの画像データは自動的にサーバ７０１に送信され、インデックス化された後にデジタルコピーとしてサーバ７０１内のデータベースに保持される。画像に関する他のメタデータ（例えば、デジタルドキュメントそれ自体、テキスト情報、アイコン、ドキュメント中の境界線など）が、またサーバ７０１に送信されてもよい。スキャナ７０５はハードコピー７０７をスキャンし、デジタルコピーに変換することが可能であり、これはデータサーバ７０１に保存されてもよい。スキャナ７０５でハードコピー７０７をスキャンしたときに、ドキュメント画像は自動的にサーバ７０１へ送信され、やはりインデックス化された後にデジタルコピーとしてサーバ７０１内のデータベースに保持される。データベースの構築後、ユーザは、デジタル操作を行うために、例えばページ画像とテキストといった、特定の紙ドキュメント中の情報を、携帯電話７０６を用いて送信して、サーバに照会する。ユーザは、ドキュメントコンテントの変更（例えばドキュメント中の図に対する音声アノテーションの付加）をすることも可能である。こうした変更や更新は、携帯電話７０６内にあるドキュメントデータに対して適用し、ドキュメントの更新されたバージョンを保存用としてサーバに送信するようにしてもよい。あるいは、変更と更新がサーバ７０１に送信され、サーバ上にあるドキュメントデータに適用するようにしてもよい。

携帯端末−紙間の操作は、携帯電話７０６上で動作するコマンドシステム７０２によって実行される。コマンドシステム７０２は、LinuxやWindows（登録商標）のシェルプログラムと同様な機能を果たす。こうすることで、ユーザにとっては、コマンドやアプリケーションの選択、対象とするコマンドの選択およびパラメータの調整といった点において、共通した操作手法が提供される。アプリケーションにとっても、撮影画像、キー入力、スタイラス入力といった生のユーザ入力の処理や、紙ドキュメントに関連する情報の検索や更新のためにサーバ７０１と連携する上で、アプリケーションプログラミングインターフェースAPIを利用することを可能とする。

本発明の実施形態において、コマンドシステム７０２のアプリケーションは、ユーザがドキュメントを操作するための特定の処理を目的とするものである。コマンドシステムの支援により、ドキュメント操作や写真編集など、多様な範囲でのアプリケーションを提供することが可能となる。コメンドシステムにより支援される他のアプリケーションの例としては、電子メール、電子辞書、コピーおよびペースト、ウェブ検索、単語検索といったものがある。

本発明の一実施形態における、データサーバおよびコマンドシステムは、多様な新規アプリケーションのプラットフォームとして利用することも可能である。ユーザは紙および携帯電話の長所を併せ持ったフレームワークから恩恵を受けることができる。

図８は、本発明の一実施形態に関わる、携帯電話およびドキュメントハードコピーを用いたデジタルドキュメント操作を実現する方法のフローチャートである。この方法は８００から開始される。８０１で、印刷されるドキュメントのデジタルデータ化されたコピー、あるいはユーザによってスキャンあるいは他の手法でデジタル化されたデータは、データサーバにより受信され、８０２でデジタルコピーがデータベース中に保存される。データベース中に保存された素材には、各ドキュメントの全体、一部、あるいはコンテントを含んでよい。８０３において、データサーバは携帯電話から、クエリとして、例えばデータベースに保存されたドキュメントの一つの一部分であるかもしれない、画像、単語、といったコンテントを受信する。本発明の一実施形態として、８０３におけるドキュメントクエリとしては先に説明した新規なＦＩＴ法による記述子とすることができる。８０４で照会されたコンテントを含むドキュメントがデータサーバから携帯端末に対して送信される。あるいは、完全なドキュメントや完全な１ページの代わりに、要求されたコンテントだけ、あるいはそのコンテントを含む部分がデータベースから検索されて送信されてもよい。８０５で、コンテントはユーザにより携帯端末上で変更され、変更されたコンテントはデータサーバで受信され、変更あるいは更新コンテントとしてデータサーバに保存される。８０６で、方法は終了する。

以下では、サーバ側でのドキュメント識別と、クライアント側でのコマンドシステムでの詳細を説明する。例えば、スナップショットに基づくドキュメント検索およびコマンドシステムを用いた携帯端末−紙間操作について詳細に説明する。

本発明の一実施形態において、先に説明した新規なFIT法を、ドキュメントクエリを実行するために利用することができる。この方法は、ドキュメントのページを表現するために低次の画像特徴を用いる。そして、テキスト固有あるいは図形特有の情報を用いないので、この方法は一般的なドキュメントで利用でき、言語やマーカーに依存しない。この特徴が、本発明の一実施形態に関わるフレームワークの、他の携帯端末−紙間操作における技術と異なる点である。しかし、本発明の一形態は、ドキュメント検索を実行するうえで、上記方法に限定されるものではない。ドキュメント中に埋め込まれたマーカーや、文字列や特定の言語の形状や構成等の方法に依存しない、一般ドキュメント中の特徴を検出するための方法もまた本発明に用いることができる。

新しいドキュメントがサーバに送信されたときに、ドキュメントの各ページについて特徴抽出が実行され、抽出された特徴はデータベース中に保存される。ユーザがクエリとしてスナップショットを送信したときに、同様の特徴抽出アルゴリズムが適用されて、抽出された特徴はデータベース中に保存されている抽出された特徴と比較される。サーバは類似度を降順に並べたときに最もマッチする候補ページを返す。ユーザがサーバ７０１より受信したドキュメントが所望のドキュメントページであることを確認し、ユーザは通常携帯電話７０６に搭載されたコマンドシステムを通じてドキュメントを操作することができる。

８０５で、コンテントはユーザにより携帯端末上でアノテーション付けされて、サーバに戻されてもよい。より粒度の細かいアノテーションが可能なために、可能となるアプリケーション例もある。大多数の紙−電話アプリケーションは、単に紙ドキュメントからの情報抽出だけに留まるが、本発明の実施形態では、さらに携帯端末−紙間操作を介してデジタル情報の追加やドキュメント編集も可能とすることができる。また本発明の一実施形態のフレームワークでは、プリントアウトをそれらのデジタルコピーのプロキシとして利用することで、携帯電話および紙を介してなされたコマンドが効率的に対応するデジタルドキュメントに適用される。

本発明の一形態においては、特定の紙ドキュメントにマルチメディアアノテーションを付加することをサポートし、言語やドキュメントのジャンルに制約がなく、より精細な粒度でのアノテーションを可能とする。例えば、プリントアウト中にあるフランスの作曲家である「オリビエメシアン」についてウェブ検索を行ったあと、ユーザは作曲家に関する紹介を選択したり、それを紙上の名前に対してアノテーションとして付加したりする。紙になされた更新は、サーバ側のデジタルファイルに伝達され、ユーザは後でオリビエメシアンの名前に対して自動的にハイパーリンクが付加された新しいデジタルバージョンのドキュメントをダウンロードすることができる。

図９は、コマンドシステムを用いた紙−電話間操作の方法のフローチャートの一例を示す。この図は基本的なユーザ側の操作と、ユーザが携帯電話を使ってコマンドを発信したときのデータ処理を表す。ユーザは、最初に紙ドキュメントのセグメントの写真を撮影し、写真の中で対象の単語や画像部分を、タッピング、アンダーライン、あるいは線で囲むといった方法で、対象選択する。なおこのステップは、もしユーザが電話に搭載されたビューファインダを用いて、対象を十字カーソルで狙った上でスナップショット撮影をする場合にはスキップすることもできる。このスナップショットは、対応するデジタルドキュメントページや他のメタデータを検索するためにデータサーバに送信される。サーバのフィードバックに応じて、ユーザへ正しいデジタルコピーが渡され、当初の選択が正確かどうかをチェックし、必要な調整を行う。最後に、デジタルドキュメントＩＤ、指令対象、パラメータが特定のアプリケーションに渡され、実際にそのコマンドが実行される。この方法を用いることで、ユーザの携帯電話で撮影された、ぼけた低品質のドキュメント画像が、ユーザの設定に応じて、ユーザが閲覧したり、操作するために、そのデジタルドキュメントの鮮明なデジタル画像に置き換えられる。

図９のフローチャートは９００から開始される。９０２で、ユーザは携帯電話上でコマンドを選択する機会を与えられる。９０３で、ユーザは選択したコマンドの指令対象を含んだ紙ドキュメントのスナップショットを撮影する。例えば、コマンドが単語のコピーである場合、ユーザはコピーしようとしているそのフレーズや単語に向けて十字カーソルを当て、ドキュメントのスナップショットを撮影する。９０４で、ユーザはスナップショット中の指令対象を選択あるいは選択しなおすために、下線を引いたり他の手法で対象語やフレーズを選択する。９０５で、スナップショットは電話からサーバに送られる。９０６で、携帯電話は合致するページとその合致ページに関連付けられたメタデータを受信する。また、他の形態としては、合致したドキュメントのページを受信する代わりに、スナップショットと合致するページの領域や部分だけを受信するようにしてもよい。９０７で、受信した候補ページは、ユーザにより確認され、修正されてもよい。この段階で、ユーザはさらに、現在閲覧中のより高品質のデジタル画像に基づいて、選択をやり直してもよい。ただし、もしオリジナルのスナップショットの品質が十分なら、それに基づいて選択をしなおしても勿論構わない。ユーザは、この段階で閲覧しているページのコンテントに対して変更やアノテーションの付与を行ってもよい。９０８で、携帯電話では受信したドキュメントページに対する正確さに関してユーザから入力を受け付ける。もし、受信したドキュメントページが正しければ処理は続行され、もし受信したコンテントがユーザが意図したものでなければ、９０９で携帯電話は他に候補となるページが入手可能かチェックする。もし、サーバから他の候補ページが提供される場合には、９０７の工程と９０８の工程が繰り返される。サーバにより送られたドキュメントページと携帯電話によって受信されたページが正しい、あるいは、サーバから提供されたすべての候補ページが確認されたときは、プロセスは９１０に移る。９１０で、ユーザは選択されたコンテントが正しいか、例えばサーバによりハイライトされたコンテントが正しいか、を照合する。もし選択が正しくなければ、９１１でユーザは選択を、例えば、電話上で表示されたドキュメント内で、タッピングする、下線を引く、円で囲むといった手法で、選択をしなおす機会が与えられる。もし正しいドキュメントページ上の正しいコンテントの正しい選択である場合には、９１２でユーザは携帯電話上でアプリケーションに対するコマンドを実行するための必要なパラメータを提供する。例えば、適当なドキュメントのドキュメントＩＤ、「検索」コマンドと「イラスト」の選択、といったものが、キーワード検索のアプリケーションを携帯電話上のコマンドシステム上で提供される。９１３で、携帯電話はコマンドを実行する。９１４で、結果がユーザに対して表示され、９１５でプロセスが終了する。なお、前述の９１１から９１４の工程は複数回繰り返すことも可能である。一例として、ユーザが楽譜のスナップショットを撮影し、本発明のフレームワークを用いて確認するとする。デジタル画像化された譜表内で音楽記号を編集し、その譜表に応じて音楽演奏を行うアプリケーションを動作させる。電話上に表示されているデジタル化された楽譜の中で、選択したセクション中で連続的に音を伸ばすために譜表に沿って線を描くためにスタイラスを用いる。これを行っている間に、引いた線の各点が取得され、即座に「音楽演奏」のコマンドに送られる。言い換えると、ステップ９１１から９１４が実行される。ユーザがスタイラスを画面から離すまで、こうした繰り返しが続けられる。

アプリケーションを含む携帯電話システムのコマンドシステムの設計について以下に説明する。図７に示すコマンドシステム７０２の一般的な機能は、コマンド動作の特定（オペレータ）、コマンドの対象の選択（オペランド）、また必要なコマンド特有パラメータの設定、といったユーザの操作を支援するものである。本発明の実施形態では、紙ドキュメントと携帯電話を対象選択に組み合わせ、動作およびパラメータを特定するために携帯電話を用いる。

紙ドキュメントのスナップショット上のターゲット選択のためには多様な手法を用いることができる。キーワード選択のために、ユーザはカメラ付き携帯電話を単語に対して照準合わせし、ボタンをクリックしてもよい。印刷された写真の領域を選択するために、ユーザはスタイラスを用いて、スナップショット上で円を描いてもよい。

本発明の一実施形態では、歪んだ低解像度のスナップショットを用いて精細なドキュメントコンテントを選択できる点が重要である。歪んで低解像度のスナップショットはデータベースに予め保存された高品質のデジタルバージョンに置き換えられ、ユーザに提供される。一方、本発明の一実施形態では、スナップショットが十分な品質であり、必要なければ、置き換え画像は提供されないようにしてもよい。

携帯電話で撮影された画像は通常は低解像で歪みがあり、一般的に低品質なので、ユーザが正確に選択することが難しかったり、システムが選択領域を判別することが難しかったりする。画像品質の向上や歪み補正アルゴリズムが知られているものの、これらのアルゴリズムは携帯電話に搭載するには負荷の高い計算アルゴリズムを通常使用しており、汎用化しづらい。本発明のアプローチはこの問題を克服しうるものである。

図１０は、携帯電話を用いたドキュメントへのフォーカスの概要を示すものである。図１０には３つのビューを示す。表示１０１０はクローズアップ、表示１０２０は遠距離からのフォーカスしたスナップショット、表示１０３０は歪みのある遠景スナップショットである。本発明の一形態は、携帯電話に搭載される低画像品質の撮像に適用可能である。多くの携帯電話は通常の風景やポートレートに適するような固定焦点長を用いており、このため表示１０１０に示すような紙ドキュメントへのクローズアップではうまく焦点が合わない。もしスナップショットを、ドキュメントが焦点距離に位置するような距離で撮影すると、文字が小さくなりすぎる。更にもしカメラの解像度が十分に高くないと、表示１０２０に示すように焦点合わせやズームインはあまり役に立たない。こうしたスナップショットでは、ユーザにとっては個々の単語を正確に選択することが難しい。ぼけ修正（de-blurring）や超解像のような画像改善手法を選択の前に適用することはできるが、これらの手順は計算負荷が高く、携帯電話のアプリケーションは現実的ではない。このため、本発明の実施形態においては、以下に示す原画による改善法を用いる。

図１１は、本発明の一実施形態に関わり、携帯電話で閲覧されるドキュメントの改善されたスナップショットを示すものである。生のスナップショット１１１０とこれに対応した改善版１１２０および１１３０を図１１に示す。生のスナップショット１１１０は低品質で歪んでいる。元のスナップショットを置換する高品質パッチが、改善版１１２０に示されている。図で示されるように、スナップショット１１１０はぼけており、斜めから全体を見ているので歪みがあり、ドキュメント中のテキストと画像の一部が切り取られるように、傾斜する文章の一部をキャプチャする。パッチ１１２０には、ぼけ、歪み、傾斜はもはや現れていない。改善版１１３０ではユーザは高解像パッチ１１２０の詳細をみるためにズームインすることができる。

図１１にオリジナルによる改善法の概要を示し、生のスナップショット１１１０がクエリとしてサーバに送られ、高解像度のオリジナルドキュメントを検索する。オリジナルの高解像ドキュメント１１２０は生のスナップショットと置き換えるために用いられる。画像処理による方法と比較して、このアプローチは多様なズームレベルにおいてずっとクリアな表示を提供し、細かいドキュメント操作を行う上では役に立つ。なお、ここでオリジナルと呼ぶものは、ドキュメント作成アプリケーションで作成したドキュメントを印刷出力したときに並行して保存されたイメージデータ（テキスト等のアノテーション情報を含むあるいは含まない、ページ記述言語型のデータや画像データ）、あるいは、印刷出力イメージで表示された状態のドキュメントエディタ用データ形式のデータであってもよい。言い換えると、画素密度が高いイメージデータであっても、ベクトルデータのように拡大に応じて描画が行われるため、解像度が劣化しないデータも含む。

高品質で高解像度のドキュメントのコピーはユーザがプリントやスキャンを行うときにサーバに提供することができる。したがって、本発明の形態におけるドキュメントの高品質コピーはデータサーバで入手可能である。一旦スナップショットが携帯電話から送られると、サーバはその特徴点を抽出し、対応する高品質のコピーを検索する。スナップショットと高解像度コピーとの間のマッチする特徴点のペアから、スナップショットの座標系から、高解像、すなわち通常は高品質のコピーの座標系へと変換する変形マトリクスが得られる。そして、この変形マトリクスは生のスナップショットにマッチするパッチの検索に用いることができる。パッチおよび変形マトリクスは、パッチと関連付けられたメタデータ（例えば、テキスト、アイコン、あるいはデジタルページ座標系の境界ボックス）とともに、ユーザインターフェースを向上させるためにモバイルクライアントに送り返される。

図１２は、本発明の一実施形態に関わるオリジナルによる改善法のフローチャートである。この図は、図１１に示されるオリジナルによる改善のステップに応じた方法を示す。この方法は１２００から開始する。１２０１でドキュメントの一領域の生のスナップショットをカメラ付き携帯電話で撮影する。１２０２で、生のスナップショットがサーバに対して、この生のスナップショットに対応する高品質版データを検索するクエリとして送られる。サーバには、携帯電話を通じて視認されるドキュメントの高品質デジタルイメージを含むデータベースを備えている。生のスナップショットに対応した高品質デジタルイメージがサーバ上にあってもよいし、他のサーバ上のデータへのリンクが保存され、リンクを通じてサーバもしくは携帯電話が高品質デジタルイメージを取得してもよい。１２０３で、携帯電話はサーバからスナップショットの高品質版データを取得する。１２０４で、携帯電話は、携帯電話で撮影した低解像度で歪んだ生のスナップショットを、サーバから受信した高品質版の対応するデータを用いて置き換えて表示する。１２０５は、ユーザは高品質版のデータを用いて操作を行うことができる。例えば、該操作としては、画像表示領域の変更、拡大縮小、タップや手書きによる丸付けといった、対象のコンテントに対するコマンドを検証したり確認したりする操作が挙げられる。１２０６では、この方法は終了する。

図１３は、本発明の一実施形態に関わる、紙、携帯電話、デジタルドキュメント間の座標変換に関する概略を説明するものである。この図では、１ページの紙１３１０の座標系、画像や、同じページの紙を撮影したスナップショット１３２０を表示する携帯電話のスクリーン、データベース中に保存されたこのページの紙の高解像度版のデジタルコピー１３３０、携帯電話のスクリーン上でのこのページの改善された画像１３４０を示す。ソースパッチ１３１５がこのページの紙１３１０の上に示されている。このソースパッチ１３１５は携帯電話で撮影され、スナップショット１３２０として示される歪んだ領域に対応する。撮影されたスナップショットには、ユーザによって前もって選択操作のために付加された丸１３２５が含まれている。適合したパッチ１３１５、境界ボックス１３３５そして丸１３２５が、オリジナルの高解像度デジタルコピー１３３０中に示されている。改善されたインターフェース１３４０が、ボックス１３３５中の適合したパッチを用いることにより得られる。オリジナルのスナップショット１３２０は歪んでおり、このためにソースパッチ１３１５として示される実際のスナップショットの領域は、実際のドキュメント上で表示されるときには長方形ではない。しかし、ソースパッチ１３１５全体にわたって決定される境界ボックスは長方形であり、この長方形のボックス１３３５に対応する画像が表示領域１３４０中でユーザに対して提示されるものとなる。さらに、前もって付加された丸は歪んだスナップショット１３２０の表示上で入力されたので、改善されたインターフェース１３４０中で、この丸１３２５もまた変換されてしまっているので、正確さが必要なら、選択をやり直すようにしてもよい。

本発明の一実施形態では、高解像パッチへの自動的な表示領域変更やズーミング、画像歪み処理、テキスト選択処理やサーバから受信したメタデータの利用といった以下で説明する機能を備えても良い。

サーバから得られた高解像度のパッチによって生の低品質のスナップショットよりは改善が得られるものの、パッチ中で細かい選択をするとき、フィードバックを確認したり選択の修正を行ううえで、ユーザはスナップショットに対して表示領域の変更や拡大縮小する必要がまだあるかもしれない。この作業を緩和するために、パッチを受信したときに、クライアント（携帯電話）はスクリーン中で先に選択したコマンドの対象物を自動的に中心に表示し、例えば携帯電話のディスプレイの表示領域の50％が対象物の境界ボックスを占めるようにズームしてもよい。ユーザはこの後で手動によるパン、ズームの作業を行うことができ、選択部分を更新し、確定することができる。図１Ａで、表示１０６は自動的に表示領域移動と拡大縮小の操作を行った結果を示している。

高機能なカメラ付き携帯を用いれば、ユーザは適当な焦点距離で指令対象の鮮明なスナップショットを撮影することができるかもしれない。しかし、スナップショット中の領域の選択は依然として困難が伴う。これは、回転、撮影方向による歪みといった画像の変形が領域の選択を困難にするためである。図１０の表示１０３０中に示すように、紙上の長方形は携帯電話のスクリーン上では回転した台形のように見える。通常の携帯電話の座標系における領域選択ウィジェットは、紙の座標系での意図する矩形領域に正確にフィットすることができない。

画像歪みに対応するための対策として、ユーザはその形状の４つの角をタップし、選択領域の多角形を定義するようにすることもできる。しかし、この方法ではユーザ自身の頭の中で携帯電話の座標系を紙の座標系に変換することを強いることになり、ユーザにとっては視覚的な負荷を増やすことになるかもしれない。照明条件もまた撮影画像の品質に影響する。例えば、携帯電話を対象となる紙ドキュメントの近くに持ってくると対象となる紙ドキュメント上に影を落としてしまう。

さらに、画像処理を新たなスナップショットに適用することは可能であるが、多様な変形を補償できるように画像処理を一般化するのは困難である。このため、本発明の一実施形態においては、オリジナルを用いた改善アプローチを利用している。オリジナルによる改善アプローチは図１２のフローチャート中に要約されており、サーバはスナップショットとオリジナルページとの間の変換マトリックスを求めるために、スナップショットを用いて検索を行う。変換マトリクスは画像の歪みを補正するために用いられる。そしてユーザは補正されたスナップショットの中で既知の選択ウィジェットを適用することができる。このアプローチはコンピュータ処理としても効率的である。

テキスト選択に関しては、キーワード検索といったいくつかのアプリケーションは紙上の選択した単語のテキストを必要とするが、スナップショットの品質は光学的文字認識（OCR)用に十分に高い必要はない。さらに、いくつかの数学記号や外国の文字はOCRのパッケージに含まれていない場合もある。この問題に対し、サーバはスナップ中に含まれるトークンを得るための検索をすることもできる。もしデータサーバ中のドキュメントがテキスト形式の場合、各語のテキスト中の位置および境界ボックスはすでに抽出され保存されており、サーバからは直接これらの位置情報を返すことができる。あるいは、サーバは最初に高品質コピーに対してOCRを実行しておいてもよい、

テキスト情報は、サーバから得られるメタデータの一種に過ぎない。他のメタデータとしては、ホットスポットの定義、ドキュメントの要素に関する境界や種類（例えば、図、表やパラグラフ）、といったクライアントインターフェースを改善できるものがある。このタイプのメタデータを用いると、ユーザは、例えばURLを開く、紙ドキュメント中の図をコピーする、などへの、ポイントアンドクリック操作を利用することができる。

図１４は、本発明の一実施形態に関わる、オリジナルによる改善方法で利用するための変換マトリクスを形成する方法のフローチャートである。この方法は１４００から開始され、１４０１で、おそらく携帯電話であるクライアントからの生のスナップショットがサーバで受信される。１４０２でスナップショットから固有の特徴点が抽出される。こうした特徴点は様々な解析法により抽出することができる。１４０３で、抽出された特徴点に基づいて、サーバはスナップショットの高品質版のデータをデータベースから検索する。１４０４で、スナップショットの特徴点と対応する高品質パッチの特徴点に基づいて、サーバは携帯電話で撮影されたスナップショットの特徴点を、サーバに保存された対応するデジタルコピー上の対応する点に変換するための変換マトリックスを得る。１４０５で、サーバは高品質パッチを携帯電話に送信する。あるいは、高品質パッチおよび変換マトリクスの両方が携帯電話に送信されてもよい。１４０６で、携帯電話は引き続く処理のためにこの変換マトリクスを利用する。１４０７で方法は終了する。

図１５は、本発明の一実施形態に関わる、オリジナルコンテントを得るための、携帯電話で撮影されたスナップショットの変換マトリクスを用いた結果を記述するものである。携帯電話で撮影されたスナップショットとデータベース中のオリジナルのデジタル版のページとの間の変換を構築する方法がテストされた。実際のパッチのスナップショットとそれにマッチするデジタルページ間の変換マトリクスを計算するコンピュータプログラムが用意された。図１５で示されるように、得られたマトリクスは対応するデジタルページ中にスナップショットを高精度に貼り付けることができる。携帯電話で撮影されたドキュメントのスナップショット１５１０が左に示され、整合したパッチ１５２７を含むデジタルページ１５２０がスナップショットの右側に示されている。内部にある四角形１５２５が歪んだスナップショット１５１０の領域に対応して表示されている。スナップショット１５２５の歪んだ領域に対応する、整合したパッチ１５２７における境界ボックスが示される。整合したパッチ１５２７のスナップショット１５２５への適合は、変換マトリクスを用いて行われる。なお、当業者には自明であるように、完全な変換を行う必要はなく、ユーザは必要に応じて最初の選択を変更することができる。

なお、他の方法として、図９のステップ９１１で示した選択の更新をユーザにより行うこともできる。特に、携帯電話上でスタイラスや指を用いないで、紙ドキュメント上でユーザが電話を動かすことでコンテントを選択することもできる（ここでは電話ジェスチャと呼ぶ）。言い換えると、ユーザはコマンドシステムを制御するために電話ジェスチャを利用することができる。ユーザにより利用可能なジェスチャの例としては、後で説明するように、領域選択、丸付け、横線、下線、交差線、点、始点終点指定といった指示がある。

図１６Ａは、本発明の一次実施形態に関わる、リアルタイムで携帯端末−紙間操作を行う、スウィープモードについての概要を示すものである。特に、この図は動作検出技術を画像認識技術と組み合わせて、ドキュメントのスキャンをリアルタイムに実現することを示すものである。ドキュメントの認識を行うことは、動作検出を行うよりも難しく、CPUの負荷も高い。このため、ドキュメント認識がリアルタイムに完了できないときでも、動作検出はリアルタイムで行うようにしてもよい。本発明の実施形態によれば、カメラで撮影される２つの画像認識動作間のデジタルパッチを予測するために画像ベースの動作検出技術を用いても良い。また、デバイスは連続して紙に関連付けれた動的なコンテンツを閲覧でき、電話の動きに基づくジェスチャを利用できるようにしてもよい。このようにすることで、本発明のこの態様は、より精細な粒度での連続的な携帯端末−紙間の操作をマーカーがなく言語依存性のない紙ドキュメントに対して行える特徴をもったデバイスを提供することができる。あるいは、画像ベースではない動作検出を採用することもできる。例えば、非画像ベースの動作検出技術としては、加速度計を利用することができる。

図１６Ａに戻ると、ステップ１６０１でユーザは携帯電話のスクリーン上の十字カーソルをドキュメント内の初期位置に合わせる。ステップ１６０２で、ユーザは初期位置を携帯電話に入力するために電話上のボタンを押し、スウィープモードにスイッチする。ステップ１６０３で、本実施形態のシステムは、現在のカメラの画像を認識し、合致する高解像度のデジタルパッチを提示する。ステップ１６０４で、コンピュータマウスを動かすときのように、ユーザは携帯電話を他の位置に向けて移動する。この移動の間、システムは継続的にカメラと紙との相対的な移動を検出し、デジタルパッチを更新する。取得済みのデジタルパッチのサイズが表示領域よりも大きい場合には、パッチ中で使用する領域を移動に応じて変更し表示させてもよい。こうした検出は認識処理よりもずっとCPUの処理が少ない。ステップ１６０５では、携帯電話の移動に応じて選択されたドキュメント領域がユーザに提示される。

図１６Ｂ、図１６Ｃは、電話ジェスチャの例を示しており、ユーザがスウィープモードでコンテントの選択を行うときに用いられるものである。特に、図１６Ｂで示す領域選択操作方法１６１０は、対象となるコンテントに渡ってユーザが引いた直線の両端が、所望の選択領域に渡る矩形の対向する２つの頂点を定める。言い換えると、得られる矩形中のすべてのコンテントが選択される。丸囲みの方法１６１１は、ユーザが選択するコンテントの周囲に線を描く。マージンバーによる方法６１２は、ユーザがテキストコンテントの範囲を示す線を描き、その線の範囲に存在する行中のテキストが選択される。ユーザは、図１６Ｃに示される方法１６１３〜１６１５のように、コンテントに対する、下線、交差線、点によっても選択を行うことができる。最後に、ユーザは、１６１６に示すように、対象となるテキストコンテントの始点終点に線を描くようにしてもよい。当業者であれば、上述のコンテント選択ジェスチャが限定されるものではなく、他の類似するものも利用できることがわかるであろう。したがって、本発明は開示されたジェスチャに限定されるものではない。

図１７は、本発明の一実施形態に関わり、スウィープモードで携帯端末−紙間操作とほぼ同時に高解像度のドキュメントを提供する方法に関するフローチャートである。このプロセスは１７００から開始される。１７０１で、携帯電話システムはユーザが指定した初期位置の入力を受信する。１７０２で、システムは現在のカメラ画像を識別し、これにマッチする高解像度のデジタルパッチを携帯電話のスクリーンに表示し、ユーザに提供する。１７０３で、携帯電話システムはユーザからのスウィープモードへ変更するボタンの入力を受信する。１７０４で、システムはユーザが携帯電話を移動して他の位置へと移動する時の入力を受信する。このスウィープ動作はマウスを移動させるような動きである。１７０５で、システムは連続的な動作を検出し、デジタルパッチを更新する。１７０６で、システムは周期的に現在のカメラ画像と識別し、認識されたカメラ画像に基づいて動作検出を再較正する。１７０７でこの方法は終了する。

図１７においては、完全な画像認識工程がステップ１７０２およびステップ１７０５中で行われる。データ処理負荷の大きい完全な画像認識工程と異なり、それが行われていない間は、画像は初期条件である初期画像の情報と携帯電話の動作とに応じて導かれる。一実施形態では、１７０５で、動作検出に加えて、携帯電話を動かして撮影された画像の、低次元の特徴記述ベクトルがサーバに送られる。当業者に自明なように、低次元の特徴ベクトルは必須というわけではない。例えば、ユーザがページをめくったときに、画像ベースの動作検出によっても、このページを変えたイベントを検出することができる。しかしながら、非画像ベースの動作検出（たとえば、加速度計）によっても、該低次元の特徴記述子を利用することができる。

本発明の一実施形態においては、サーバは２つの情報を使って携帯電話の位置と高品質パッチとの整合をとる。一つ目は初期位置に対する携帯電話の相対位置であり、２つ目は移動中の携帯電話で撮影されるその時点の画像に関する画像データである。あるいは、２つの画像認識処理の間の区間で携帯電話からサーバに送信される画像データは低品質のサイズの小さいデータとし、高品質画像から認識された初期画像と携帯電話の移動状態から導かれる予想画像とを比較し、その時点の低品質画像が予測画像と異なると判断される場合には、予測画像の表示を中止するようにする。そして、もしユーザが、例えば携帯電話を保持したまま、ドキュメントのページをめくったとすると、その２ページ目にあたる低品質の画像データによって、サーバはそれが動作と一致しないことを知ることになり、その画像は変更される。このとき、システムは画像データをさらに伝送および処理する、他の画像認識処理を行っても良い。例えば、サーバによる画像認識を支援するためにサーバに対し、画像記述ベクトルを携帯電話から伝送する場合、動作検出を定期的にリセットするために送信される画像記述ベクトルは、高次元でより多くの情報を含むが、携帯電話の移動に伴って連続的に伝送される画像記述ベクトルはそれよりは小さい次元で大きくない画像データを含むものとする。なお、この画像記述子は受信された画像に基づいてサーバ側で検出されてもよく、その場合にも画像データのサイズ（例えば圧縮率、解像度、画像範囲など）を上述のように変化させてもよい。

本発明の一実施形態に関わるプロトタイプについて、認識用のマークが付加されていないドキュメントを対象とするテストでは高い認識率が得られた。例えば、２００６年マルチメディア博覧国際会議（International Conference on multimedia expo）予稿集の１０００ページを用い、このシステムのテストを行った。各ページは３０６×３９６の画像領域に分割され、キーポイントと特徴ベクトルを抽出するためのトレーニング画像としてシステムに入力された。これらのページの画像は、各ページごとに０．１８〜２倍の間での拡大縮小と０°〜３６０°の間の回転をランダムに施すことで３０００枚のテスト画像、すなわち各ページごとに３枚の画像が生成された。３０００枚のテスト画像はシステムに入力された。本発明の実施形態に基づいて実現されたシステムにおけるページの認識率は、入力画像に対して９９．９％であった。

さらに、この方法は局所的な特徴を用いているので、ドキュメントに付加された注釈はほとんどパフォーマンスに影響しない。

このように本発明の一実施形態は、紙とカメラ付き携帯端末のインターフェースを用い、トークンおよび点（ドット）レベルでの操作を可能とし、言語依存性のないフレームワークを提供する。このフレームワークはカメラ付き携帯端末での単語のウェブ検索の実現、カメラ付き携帯端末での紙ドキュメント中の単語の電子辞書の実現、あるいはカメラ付き携帯を用いた紙ドキュメント中へのトークンおよび点レベルでのマルチメディアアノテーションを支援する。このフレームワークはさらに、カメラ付き携帯を用いた紙ドキュメント中のコンテントのコピーペーストの実現、カメラ付き携帯を用いて印刷された写真の一部を用いた写真コラージュの作成、あるいは、カメラ付き携帯を用いた印刷されたプレゼンテーション用の配布資料の動的なコンテントの再生にも応用することができる。

なお、本発明に関わるシステムは、必ずしもカメラ、ディスプレイ、処理部が一体となったカメラ付き携帯端末である必要はない。処理部が十分な記憶情報をローカルに保持する記憶部と一体であれば、通信機能も必ずしも必要ではないし、サーバとの通信を行う場合には移動体通信やWiFiのいずれかを利用する方が利便性は向上するが、有線通信により実現できることも当業者には自明であろう。ただし、無線通信を備えるカメラ付き携帯端末をクライアントとし、これにサーバを組み合わせることで、処理の負荷分散と、利用できる装置が限られた環境下で、紙および携帯端末を用いたこれまでのシステムよりも高度な処理が可能になることもこれまでの説明から明らかであろう。

図１８は、本発明の実施形態に関わるコンピュータ／サーバーシステム１８００の実現例を例示したものである。このシステム１８００は、コンピュータ／サーバプラットフォーム１８０１、周辺装置１８０２とネットワークリソース１８０３を含んで構成される。

コンピュータプラットフォーム１８０１は、情報をコンピュータプラットフォーム１８０１内の多様なモジュールとの間で通信するためのデータバス１８０４あるいは他の通信機構を有している。そして、プロセッサ（ＣＰＵ）１８０５は、情報処理や他の計算および制御処理を行うために、バス１８０４と接続されている。コンピュータプラットフォーム１８０１ではさらに、多様な情報やプロセッサ１８０５で処理される命令を記憶する、ランダムアクセスメモリ（RAM）や他の動的記憶装置のような揮発性記憶領域（揮発性メモリ）１８０６がバス１８０４に接続されている。揮発性記憶領域１８０６はプロセッサ１８０５の処理において一時的な変数や中間情報を記憶するために用いられてもよい。コンピュータプラットフォーム１８０１は、統計情報や、基本入出力システム（BIOS）のような、プロセッサ１８０５の命令や、様々なシステムのパラメータを記憶するために、バス１８０４に接続されたリードオンリーメモリ（ROM）や他の静的記憶装置を備えても良い。磁気ディスク、光ディスク、固体フラッシュメモリデバイスなどの不揮発性記憶領域１８０８が提供され、情報および指示を記憶するためにバス１８０４に接続されてもよい。

コンピュータプラットフォーム１８０１には、システム管理者あるいはユーザに情報を提示するために、CRT、プラズマディスプレイ、ＥＬディスプレイあるいは液晶ディスプレイなどのディスプレイ１８０９が、バス１８０４を介して接続されている。入力装置（キーボード）１８１０はアルファベットおよび他のキーを備えており、プロセッサ１８０５との通信や指示のためにバス１８０４に接続されている。他のユーザ用入力装置としては、方向に関する情報を通信し、ディスプレイ１８０９上でのカーソルの動きを制御するマウス、トラックボールあるいはカーソル方向キーのようなカーソル制御装置１８１１がある。この入力装置は通常２軸での自由度をもっており、第１の軸（例えばｘ）および第２の軸（例えばｙ）を持つことで平面上での位置をそのデバイスで特定できることとなる。

外部記憶装置１８１２を、拡張あるいは取り外し可能な記憶容量をコンピュータプラットフォーム１８０１に提供するために、バス１８０４を介してコンピュータプラットフォーム１８０１に接続してもよい。コンピュータシステム１８００の一例で、外付けのリムーバブルメモリ（外部記憶装置１８１２）は他のコンピュータシステムとのデータ交換を容易にするために、使用されてもよい。

本発明は、ここに記述された技術を実現するためのコンピュータシステム１８００の使い方に関連するものである。実施形態として、コンピュータプラットフォーム１８０１のような機械上に、本発明に関するシステムを搭載する。本発明の一形態としては、ここで記載された技術を、揮発性メモリ１８０６中の１以上の命令による１以上の処理をプロセッサ１８０５に処理させることで実現させる。こうした命令は不揮発性記憶領域１８０８のような他のコンピュータ読取可能な媒体から、揮発性メモリ１８０６に読み出してもよい。揮発性メモリ１８０６中に保持された一連の命令をプロセッサ１８０５に実行させることで、ここに述べた処理ステップを実現させる。他の形態としては、ハードウェアの電子回路を、発明を実現するソフトウェアと、一部置き換え、あるいは、組み合わせてもよい。なお、本発明は特定のスペックを有するハードウェアやソフトウェアの組み合わせに限定されるものではない。

ここで、コンピュータ可読媒体とは、プロセッサ１８０５が実行するための命令を提供するために用いられるあらゆる媒体を指す。コンピュータ可読媒体は機械読取可能媒体の一例であり、ここで述べた、いかなる方法もしくは技術を実現するための命令をも保持することができるものである。このような媒体は多様な形態をとり、不揮発性媒体、揮発性媒体、そして通信媒体といったものに限られない。不揮発性媒体としては、例えば、記憶装置（不揮発性記憶領域１８０８）のような、光、磁気ディスクが含まれる。揮発性媒体としては、例えば揮発性記憶装置（揮発性記憶領域）１８０６のような動的メモリを含む。通信媒体は、データバス１８０４のような配線を含む同軸ケーブル、銅線、光ファイバーなどであってよい。通信媒体は、電磁波や赤外光データ通信のような、音波や光を利用したものも含む。

コンピュータ可読媒体の一般的な形態は、例えば、フロッピー（登録商標）ディスク、ハードディスク、磁気テープあるいは他の磁気媒体、CD-ROMあるいは他の光記憶媒体、パンチカード、紙テープなどの穴の配置を用いる媒体、RAM、ROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリーカードなどのメモリチップやカートリッジ、通信波、あるいはコンピュータが読むことができる他の媒体、といった通常のコンピュータ可読媒体を含む。

さまざまな形態のコンピュータ可読媒体が、プロセッサ１８０５で処理される１以上の処理を実行させるために用いることができる。例えば、その命令が最初はリモートコンピュータから磁気ディスクに保持されてもよい。あるいは、リモートコンピュータがその命令を動的記憶装置にロードして、モデムを用いた電話回線を通じてこれを送信してもよい。コンピュータシステム１８００に接続されたモデムは、電話回線を通じてデータを受け取るともに、データを赤外線信号に変換して赤外線として伝送するようにしてもよい。赤外線検出装置は、赤外線信号に重畳されたデータを受信し、適当な回路がそのデータをデータバス１８０４に伝送する。バス１８０４は揮発性記憶領域１８０６にデータを伝送し、プロセッサ１８０５がその命令を参照して実行できる状態におく。揮発メモリ（揮発性記憶領域１８０６）から受け取った命令はプロセッサ１８０５により処理される前あるいは後に不揮発性記憶装置（不揮発性記憶領域）１８０８に保存されるようにしてもよい。命令は、周知のネットワークデータ通信プロトコルのいずれかで、インターネットを介してコンピュータプラットフォーム１８０１にダウンロードするようにしてもよい。

コンピュータプラットフォーム１８０１は、データバス１８０４に結合したネットワークインターフェースカード１８１３のような通信インターフェースも有する。通信インターフェース１８１３はローカルエリアネットワーク１８１５に接続されたネットワークリンク１８１４に接続し、双方向のデータ通信が可能とされる。例えば、通信インターフェース１８１３はＩＳＤＮカードやモデムと一体化され、対応する電話回線でのデータ通信を行わせるようにしてもよい。他の例としては、LANや802.11a, 802.11b, 802.11g として周知の無線LANリンクに適合したデータ通信接続を行うローカルエリアネットワークインターフェースカード（LAN NIC）としたり、Bluetooth(登録商標)を用いて実現したりしてもよい。いずれの場合でも、通信インターフェース１８１３は、様々なタイプの情報を表すデジタルデータ列を伝送する、電気、電磁、あるいは光信号を送受信する。

ネットワークリンク１８１４は、１以上の他のネットワークとのデータ通信を通常可能とする。例えば、ネットワークリンク１８１４は、ローカルエリアネットワーク１８１５を介して、ホストコンピュータ１８１６やネットワークストレージやサーバ１８２２への接続を提供する。加えて、あるいは代替として、ネットワークリンク１８１４は、インターネットのような、広域あるいはグローバルネットワーク１８１８にゲートウェイ／ファイアウォール１８１７を通じて接続する。そしてコンピュータプラットフォーム１８０１はインターネット１８１８上のどこかにある、例えばリモートネットワークストレージ／サーバといった、ネットワークリソースにもアクセスすることが可能となる。一方、コンピュータプラットフォーム１８０１は、ローカルエリアネットワーク１８１５および／またはインターネット１８１８上のいかなる位置にいるクライアントからもアクセスできるようにしてもよい。ネットワーククライアント１８２０および１８２１は、プラットフォーム１８０１と同様のコンピュータプラットフォームに基づいて構築しても良い。

ローカルエリアネットワーク１８１５とインターネット１８１８は、共に電気、電磁、あるいは光信号を、データ信号列を伝播するために用いる。なお、デジタルデータをコンピュータプラットフォーム１８０１に入出させる、多様なネットワークを通じた信号、ネットワークリンク１８１４上や、通信インターフェース１８１３を介した信号は情報伝送の伝送波の例示的な形態である。

コンピュータプラットフォーム１８０１は、メッセージの送信、プログラムコードを含むデータの受信を、インターネット１８１８およびLAN１８１５を含む多様なネットワーク、ネットワークリンク１８１４および通信インターフェース１８１３を介して行うことができる。インターネットの例では、コンピュータプラットフォーム１８０１はネットワークサーバとして機能し、クライアント１８２０および／または１８２１で実行されるアプリケーションプログラム用の、リクエストコードやデータを、インターネット１８１８、ゲートウェイ／ファイアウォール１８１７、ローカルエリアネットワーク１８１５および通信インターフェース１８１３を介して伝送する。同様に、他のネットワークリソースからコードを受信してもよい。

受信したコードはプロセッサ１８０５によって受信時に実行されるか、不揮発性記憶領域１８０８あるいは揮発性記憶領域１８０６に保存する、あるいは他の不揮発性記憶領域に記憶して、後で実行してもよい。このようにしてコンピュータ１８０１は伝送波からアプリケーションコードを取得できる。

図１９は、本発明の一実施形態のコンピュータプラットフォームの機能ブロック図の例を示すものである。携帯端末１９００は、CPU１９０５、揮発性メモリ１９０６と不揮発性メモリ１９０８がデータバス１９０４を介して接続されたコンピュータプラットフォーム１９０１を含む。コンピュータプラットフォーム１９０１は、EPROMやファームウェア記憶部１９０７、アンテナ１９１４を通じてネットワークと通信を行う送受信器１９１３を備えても良い。コンピュータプラットフォームは、ディスプレイ１９０９、タッチパネルセンサ１９１０、カメラ１９１１およびモーションセンサ１９１２が含まれる周辺機器と接続される。モーションセンサは加速度計と組み合わされたGPSのような位置検出器であってもよい。モーションセンサはカメラの位置を決定するために、初期位置からの移動方向と速度を計測するものであってもよい。あるいは、携帯電話の移動時のカメラの地点を直接決定するものであってもよい。

カメラ１９１１は、ドキュメントのスナップショットを撮影し、画像処理のためにそれをCPUに送信し、撮影したスナップショットの固有の特徴を表す画像記述ベクトルを求めるために用いることができる。モーションセンサ１９１２は携帯端末を紙に沿って動かしたときの初期位置に対するカメラの現在の位置を求めるために用いることができる。ディスプレイ１９０９は撮影した画像を閲覧するとともに、携帯端末がサーバと通信して受信した高品質の画像を閲覧するために用いられる。スナップショットはアンテナ１９１４を通じて送信され、高品質画像は同様にアンテナを通じて受信される。タッチパネル１９１０はスナップショットや高品質画像に注釈付けするために用いることができ、注釈のデータはサーバに返される。不揮発性記憶部（メモリ）１９０８およびファームウェア記憶部１９０７は、各画像の特徴記述ベクトルの計算や変換マトリックスのプログラムを保存するために用いても良い。

最後に、ここに記載した方法や技法は、特定の装置固有に成り立つものでなく、いかなる適当な構成要素の組み合わせによっても実現できることを理解されたい。また、この開示の示唆に従って、多様な一般用途の装置を用いてもよい。またここで開示した手法を実現する専用の装置を作成することも有効である。この発明は特定の例示に基づいて記述されているが、それらは全て限定的にするためではなく、例示するためのものである。当業者であれば、ハードウェア、ソフトウェアおよびファームウェアの多くの異なる組み合わせが本発明を実施するために適当であることは理解されうることであろう。例えば、ソフトウェアの記述は、アセンブラ, C/C++, pearl, shell, PHP, Java（登録商標）といった多様なプログラムあるいはスクリプト言語を用いて実現できる。

さらに、当業者であればここに開示された本発明の明細書および実施例に基づいて、本発明の他の改良もまた明らかであろう。実施形態に記述された多様な観点や構成は、このコンピュータにより実現される画像検索システムを単独もしくは組み合わることにより利用することができる。明細書と実施例は例示的なものと解釈され、真の発明の示す範囲と思想はクレームにより示されるものである。

701 データサーバ
702 コマンドシステム
703 アプリケーション
704 プリンタ
705 スキャナ
706 携帯端末
707 紙ドキュメント

Claims

複数のドキュメントのデジタルコピーを記憶する記憶手段と、
任意のドキュメントのスナップショットを撮影するカメラと、
前記カメラで撮影される前記スナップショットを表示するディスプレイと、
前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも１つの前記複数のドキュメントを検索する検索手段と、
前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を判別する位置判別手段と、
検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信する受信手段と、
判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作する操作手段と、
を備えることを特徴とするドキュメント操作システム。
前記判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示する表示制御手段を備えることを特徴とする請求項１記載のドキュメント操作システム。
前記表示制御手段は、撮影された前記スナップショットを、対応する前記デジタルコピーの情報を用いる画像に置き換えて前記ディスプレイに表示することを特徴とする請求項２記載のドキュメント操作システム。
前記表示制御手段は、前記ディスプレイに、撮影される前記スナップショット中の任意の位置を指定するための指定部を表示するとともに、前記指定部により指定された前記スナップショット中の位置に対応する前記検索されたドキュメントのデジタルコピー中の位置の画像を前記ディスプレイに表示し、
前記操作手段は、前記指定部により指定された位置にある前記ドキュメントのデジタルコピー中の情報を操作するための指令手段を更に備えることを特徴とする請求項２記載のドキュメント操作システム。
前記指令手段により指定される操作が前記デジタルコピーの編集操作であって、前記ディスプレイ上での編集操作の処理結果が前記記憶手段に記憶されることを特徴とする請求項４記載のドキュメント操作システム。
前記検索手段による検索に先立ち、前記複数のドキュメントに関する局所画像特徴が予め抽出されるとともに前記記憶手段に記憶されていることを特徴とする請求項１記載のドキュメント操作システム。
前記スナップショットあるいは前記スナップショットの局所画像特徴に関する情報を前記検索手段に送信する送信手段を更に備え、
前記記憶手段、前記検索手段および前記位置判別手段が、前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段とは、ネットワークを介して分離して構成されていることを特徴とする請求項１記載のドキュメント操作システム。
前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段が一体化された携帯端末であることを特徴とする請求項７記載のドキュメント操作システム。
前記表示制御手段は、前記デジタルコピーの情報を用いた前記判別された位置に対応する前記ドキュメントの画像の前記ディスプレイへのカメラによる表示の後、前記カメラによる前記任意のドキュメントの撮影位置の変化を検出するともに、前記撮影位置の変化に応じて、前記判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示する請求項２記載のドキュメント操作システム。
前記局所画像特徴が、局所不変画像特徴であることを特徴とする請求項１〜９のいずれか一項に記載のドキュメント操作システム。
複数のドキュメントのデジタルコピーを記憶手段に記憶し、
任意のドキュメントのスナップショットをカメラで撮影し、
前記カメラで撮影される前記スナップショットをディスプレイに表示し、
前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも１つの前記複数のドキュメントを検索手段により検索し、
前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、
検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、
判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作手段で操作する、
ことを特徴とするドキュメント操作方法。
コンピュータに、
複数のドキュメントのデジタルコピーを記憶手段に記憶し、
カメラで撮影した任意のドキュメントのスナップショットを取得し、
前記カメラで撮影される前記スナップショットをディスプレイに表示し、
前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも１つの前記複数のドキュメントを検索手段により検索し、
前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、
検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、
ユーザからの入力を受け付ける操作手段で受け付けて、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を前期操作手段により受け付けた操作を実行させるためのプログラム。