JP2011008752A - ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム - Google Patents

ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム Download PDF

Info

Publication number
JP2011008752A
JP2011008752A JP2009231212A JP2009231212A JP2011008752A JP 2011008752 A JP2011008752 A JP 2011008752A JP 2009231212 A JP2009231212 A JP 2009231212A JP 2009231212 A JP2009231212 A JP 2009231212A JP 2011008752 A JP2011008752 A JP 2011008752A
Authority
JP
Japan
Prior art keywords
document
snapshot
image
display
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009231212A
Other languages
English (en)
Inventor
Chunyuan Liao
リアオ チュニュアン
Qiong Liu
リュウ チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2011008752A publication Critical patent/JP2011008752A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ドキュメント中のコンテンツに対して可能な操作に制約があった。
【解決手段】複数のドキュメントのデジタルコピーを記憶手段に記憶し、任意のドキュメントのスナップショットをカメラで撮影し、カメラで撮影されるスナップショットをディスプレイに表示し、スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも1つの複数のドキュメントを検索手段により検索し、スナップショットで撮影された任意のドキュメント中の位置に対応する、検索されたドキュメント中の位置を位置判別手段により判別し、検索された前記ドキュメントのデジタルコピーを記憶手段から受信手段で受信し、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作手段で操作するようにした。
【選択図】図2

Description

本発明は、カメラで撮影したドキュメント中の情報を操作するためのドキュメント操作システム、方法およびプログラムに関する。
紙媒体は軽量、柔軟かつ耐久性があり、高解像度であることから多様な用途でのドキュメント閲覧に適する。しかし、一方で通信やコンピュータ処理の能力に欠け、動的なフィードバックを提示することはできない。対照的に、通信機能を有する携帯端末(例えば携帯電話)は通信、コンピュータ処理そして動的なフィードバックを行う機能は有するが、ディスプレイの表示面積が狭いとか低解像度であるといった表示に関わる問題がある。
近年、携帯電話と紙とを相互作用させる技術への関心が高まってきている。例えば、既存システムにおいては、紙文書中のテキスト中のスペースの配置などで定まる区画を識別することで文書を識別する技術を用いているが、これはテキストであることが前提でありかつ言語依存性のある手法である。つまりこのシステムは、ドキュメント中の図、写真、地図といった画像ベースのコンテンツや、例えば日本語や中国語のように単語間にスペースを持たないために区画分けが難しい言語に対しては、利用することができない。また、このシステムにおける応用例であるマルチメディアとのリンクは、このようにテキストの区画のレベルで生成した上で閲覧可能とされるものなので、トークン(例えば、個々の英単語、日本語や中国語の文字、あるいは数学の記号など)やピクセルレベルでの精細な設定することができない。
これとは別のシステムとして、写真や地図などの画像ベースの文書の取り扱いを対象とするものがある。そうしたシステムの例では、スケール不変特徴変換(SIFT:Scale Invariant Feature Transform)を印刷された写真を認識するためのアルゴリズムとして用いる。製図用の他のシステム例では、地図中の領域でユーザが撮影したスナップショットに対して、その領域に一致するデジタル化されたマップ画像を検索するものがある。この例は、画像コンテントと地図とを対応付けるだけであり、検索されたコンテンツに含まれるトークンやピクセルレベルの内容を操作するものではない。
また、拡張現実(AR:Augmented Reality)技術の一つとして、携帯電話を「魔法のレンズ」として用い、ユーザが紙の地図上の注目領域(Point of Interest)を閲覧することを可能とし、該注目領域とインタラクションすることを可能とするものがある。例えば、ユーザが携帯電話に搭載されたカメラでサンフランシスコの物理的な地図上のエリアを撮影すると、撮影されている地図の画像に動的なコンテンツ(例えばATMの場所など)が合成されてモニタに表示される。しかし、既存のARシステムは、地図上の領域を識別するためのマーカー画像に依存しており、撮影された画像に対する指定とクリックといった操作は、システム側で予めインタラクティブな操作が可能な場所として設定した注目領域に限定される。
紙を撮影して得られた情報の利用は他のシステムにおいても実現されている。例えば、あるシステムではドキュメント画像から情報を抽出することが可能である。他の例としては、机上にある紙文書をオーバーヘッドビデオカメラで撮影し、文書のビデオ画像に対応するテキストコピーを実行することができる。これらの2つの例は紙文書から得られる情報のデジタル化を目的としたものであり、ユーザと紙ドキュメントとのインタラクションを目的としたものではない。反対に、第3の例としては、システムが紙文書を、机を見渡す場所にあるカメラとプロジェクタとで追跡し、拡張情報を投影することで、ユーザと紙との多様な相互作用を支援するものがある。また、ペンにカメラを設置し、ユーザが紙上へ手書きしているときの、ペン先の小さい領域中の画像を撮影する例もある。撮影された画像は、特別のコマンドを実行させるため、あるいは、光学的文字認識(OCR)を用いてテキスト抽出するために、デジタル的に認識される。この結果、ハイパーリンクなどの特別なマークとして認識されない撮影画像データはOCR処理に提供され、対応するテキストが抽出される。この認識されたテキストは、実行コマンドのパラメータとして提供されるか、入力情報として用いられる。こうしたシステムは、例えば、ページ番号を記録するときに有効である。
なお、紙文書の識別に関してはかなり多くの研究がされている。この技術領域で頻繁に用いられている方法はページや領域にタグ付けするものである。あるシステム例では、RFIDタグを紙の地図中の注目領域を認識するために用い、他の例では本のページを識別するために用いている。他のシステムではマーカー画像を文書認識に用いたり、注目領域を特定するために人間には不可視な赤外線反射マーカーを利用したりする。
紙中のコンテンツとインタラクションをする場合、空間位置の高精細さを実現し、一方で見づらさを低減するために、基準パターン技術を用いることもできる。紙の背景を特別な小さいドットパターンで覆うことにより、システムは、ユーザが手書きを行うときのペン先の位置を正確に計測することができる。この変形手法としては、視覚的な妨害を避けるために不可視トナーを採用するアイデアもある。
特別なマーカーやパターンを用いて紙への情報付加を行うときの不便さを解消するために、ある既存システムでは、コンテンツベースのドキュメント認識技術を利用している。このようなシステムに加えて、離散コサイン変換(DCT)係数、OCRと線輪郭、SIFTベース特徴などといった、紙ドキュメント認識用のシステムがある。
しかしながら、紙との相互作用をより効果的に行うことが可能な技術が望まれる。
特表2009−506392号明細書
本発明は、表示媒体上に表示されたドキュメントをカメラにより撮影し、このドキュメント中に含まれるコンテンツに対して、従来よりもより自由度の高い操作を可能とすることを目的とする。
本発明のドキュメント操作システム、方法およびコンピュータプログラムは、上記課題を解決するために次の特徴を備える。
本発明の第1の態様であるドキュメント操作システムは、複数のドキュメントのデジタルコピーを記憶する記憶手段と、任意のドキュメントのスナップショットを撮影するカメラと、前記カメラで撮影される前記スナップショットを表示するディスプレイと、前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも1つの前記複数のドキュメントを検索する検索手段と、前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を判別する位置判別手段と、検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信する受信手段と、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作する操作手段と、を備えることを特徴とする。
また、第2の態様としては、判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示する表示制御手段を備えることを特徴とする。
さらに第3の態様としては、前記表示制御手段は、撮影された前記スナップショットを、対応する前記デジタルコピーの情報を用いる画像に置き換えて前記ディスプレイに表示することを特徴とする。
また第4の態様としては、前記表示制御手段は、前記ディスプレイに、撮影される前記スナップショット中の任意の位置を指定するための指定部を表示するとともに、前記指定部により指定された前記スナップショット中の位置に対応する前記検索されたドキュメントのデジタルコピー中の位置の画像を前記ディスプレイに表示し、前記操作手段は、前記指定部により指定された位置にある前記ドキュメントのデジタルコピー中の情報を操作するための指令手段を更に備えることを特徴とする。
また、第5の態様としては、指令手段により指定される操作が前記デジタルコピーの編集操作であって、前記ディスプレイ上での編集操作の処理結果が前記記憶手段に記憶されることを特徴とする。
また、第6の態様としては、前記検索手段による検索に先立ち、前記複数のドキュメントに関する局所画像特徴が予め抽出されるとともに前記記憶手段に記憶されていることを特徴とする。
また、第7の態様としては、前記スナップショットあるいは前記スナップショットの局所画像特徴に関する情報を前記検索手段に送信する送信手段を更に備え、前記記憶手段、前記検索手段および前記位置判別手段が、前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段とは、ネットワークを介して分離して構成されていることを特徴とする。
また、第8の態様としては、前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段が一体化された携帯端末であることを特徴とする。
また、第9の態様としては、前記表示制御手段は、前記デジタルコピーの情報を用いた前記判別された位置に対応する前記ドキュメントの画像の前記ディスプレイへのカメラによる表示の後、前記カメラによる前記任意のドキュメントの撮影位置の変化を検出するともに、前記撮影位置の変化に応じて、前記判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示することを特徴とする。
また、第10の態様としては、前記局所画像特徴が、局所不変画像特徴であることを特徴とする。
本発明の他の態様であるドキュメント操作方法は、複数のドキュメントのデジタルコピーを記憶手段に記憶し、任意のドキュメントのスナップショットをカメラで撮影し、前記カメラで撮影される前記スナップショットをディスプレイに表示し、前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも1つの前記複数のドキュメントを検索手段により検索し、前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作手段で操作することを特徴とする。
また、本発明のさらに他の態様であるコンピュータプログラムは、コンピュータに、複数のドキュメントのデジタルコピーを記憶手段に記憶し、カメラで撮影した任意のドキュメントのスナップショットを取得し、前記カメラで撮影される前記スナップショットをディスプレイに表示し、前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも1つの前記複数のドキュメントを検索手段により検索し、前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、ユーザからの入力を受け付ける操作手段で受け付けて、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を前記操作手段により受け付けた操作を実行させるためのプログラムである。
なお、上記記述あるいはこれ以降の記述は例示かつ説明を目的とするものであり、クレームした発明やその応用例を限定するためのものではない。
従来よりも自由度の高いドキュメントのコンテンツの操作が可能となる。
本発明の一実施形態に関わる、紙ドキュメント中のキーワードの定義を検索する目的のフレームワークの一例を示すものである。 ショッピングモールで店舗のクーポンを検索する場合のフレームワークの一例を示すものである。 紙ドキュメント中の対象物を検索するフレームワークで用いる手法のフローチャートの一例を示すものである。 高速不変変換(FIT)計算により新規な特徴セットを計算する手法のフローチャートの一例を示すものである。 FIT画像記述子の構築手法を説明するための模式図である。 画像記述子を構築するための方法のフローチャートの一例を示すものである。 画像記述子を構築するための方法のより具体的な一例のフローチャートを示すものである。 第1サンプリングポイントの副座標系の模式図である。 携帯端末と紙ドキュメントを用いたデジタル操作を実現するフレームワークの模式図の一例である。 携帯端末と紙ドキュメントを用いたデジタル操作を行うための方法に関するフローチャートの一例である。 コマンドシステムを用いて、紙−携帯端末間の操作を行う方法に関するフローチャートの一例である。 携帯端末で撮影された、低品質で、歪んだ画像の一例を示すものである。 携帯電話に表示されるスナップショットとおよび改善されたドキュメントの一例を示すためのものである。 オリジナルによる改善手法のフローチャートの一例を示すものである。 紙、携帯電話のスクリーン、デジタルドキュメントの座標系の一例を説明するため図である。 オリジナルによる改善手法で用いられる変換マトリクスの形成方法のフローチャートの一例を示すものである。 携帯端末のカメラで撮影されたスナップショットの変換マトリクスを使ってオリジナルコンテントを取得した結果の一例を示すものである。 スウィープモードでカメラおよび携帯端末がリアルタイムで操作されている様子の一例を示す模式図である。 スウィープモードでコンテントを選択するためにユーザにより入力される、様々な電話ジェスチャの例を示すものである。 スウィープモードでコンテントを選択するためにユーザにより入力される、様々な電話ジェスチャの例を示すものである。 スウィープモードでの携帯と紙との間のリアルタイムな操作を通じて、高解像ドキュメントが提供される方法のフローチャートの一例を示すものである。 本発明の一実施形態で使用されるコンピュータプラットフォームの一例を示す図である。 本発明で使用される携帯端末のプラットフォームの一例を示すブロック図である。
以下の詳細な説明において、対応する図面中の符号は、同じ機能要素については同様の番号を付してある。これらの図面は例示であって、その手法を限定するものではなく、個々の実施形態と適用例は今回の発明の原理を示すためのものである。これらの適用例は当業者が実施可能な程度に十分な詳細が記載されており、他の適用例への適用、構成の変更や各構成要素の変更および/または置き換えが、本発明の範囲および思想から逸脱することなく適用できることは理解されるだろう。従って、以下の詳細な説明は限定的に解釈されるものではない。加えて、記述される多様な実施形態は、一般用のコンピュータ上で動作するソフトウェアの形態、専用のハードウェアからなる形態、あるいはソフトウェアとハードウェアとの組み合わせにより実現されるものである。
紙ドキュメントの識別において、多くの既存システムは様々な条件および制約を有する。あるシステムではRFIDタグのような電子マーカーを紙に埋め込み、ドキュメントの識別に用いている。こうしたシステムでは低い空間解像度と高い製造コストが問題となる。あるシステムでは、2次元バーコードのような光学マーカーを使って、紙の地図上の特定の地理上の領域を示し、ユーザがカメラ付き携帯電話を用いて、関連付けられたウェブサイト上の天気予報および関連情報を検索することができる。一般に、マーカーの導入はオリジナルのドキュメントに変更を加える負荷が増え、視覚的に邪魔になって、重要な表示物が不明瞭になってしまう場合もある。こうした問題に対して、既存システムでは、コンテントベースのアプローチを採用し、紙上のテキスト区画を識別するための単語の空間配置といった、局所的なテキストの特徴を利用している。しかし、これらのシステムはテキストの性質に大きく依存しており、画像コンテントのドキュメントの区画や、日本語や中国語のように明確な空白がトークンの間に無いあるいは少ない言語にはうまく機能しない。トークンとしては、単語、文字、記号も考えられる。
デジタルコンテントに対する操作の精緻さに関しては、ほとんどの既存システムは相対的に粗い。テキストの区画を用いるシステムにおいては複数の単語のグループで操作する。あるものは地図中の予め設定した地図上の領域に注目し、あるものはデジタル写真ファイルをシェアすることを狙いとする。しかしトークンの選択自由度を高め、紙上での指定レベルを細かくする研究はあまりなされていない。例えば、トークンに基づく操作に関しては、ユーザは、例えば英単語、漢字、数学記号などの一つのキーワードを紙ドキュメント中で検索したい。また、画像ベースの操作の例として、例えばコラージュを作成するために友人のすべての写真を集めるときに、印画紙に印刷された写真の中で友人が写っている部分の選択を望む場合もある。残念ながら、既存のシステムでは、こうした機能をサポートしているものはない。
これに対して、本発明では、表示物(紙へのハードコピー、ディスプレイへ表示された画像など他の表示媒体上に顕在化された画像でもよい。以降、代表例である紙へのハードコピーを用いて多くは説明してある。)に対して、トークンをサポートし、より精緻なポイント(点)レベルでの操作を可能とするフレームワークを提供することを一つの目的とする。本発明のフレームワークでは、表示物に対応するデジタルファイルをメモリに保持しておき、表示物をこのデジタルファイルのプロキシ(代理)として取り扱い、ユーザは例えばカメラおよびディスプレイ付き携帯端末を用いて、表示物に対するインタラクションを通じてデジタルドキュメントにアクセスし、操作する。
本発明の一つの目的であるフレームワークは、例えば、文書検索システムの最上層に構築される。本発明の一実施形態では、システムが局所画像特徴記述子を用いてドキュメントの特徴を判断するので、区画レベルでのマルチメディアアノテーションよりも精緻なドキュメント操作を可能とする。さらに、既存のARシステムは画像マーカーに依存して地図の領域を特定しているが、本発明の一実施形態に関わる地図アプリケーションは視覚マーカーを使用せず、ユーザ指定の注目領域を作成することを可能とする。
そして本発明の好ましい一例は、通信、コンピュータ処理、フィードバックの提供が可能な携帯端末の優位性を合わせ持つ、カメラおよびディスプレイの一体化された携帯電話等の携帯端末(以下、単に携帯端末と略することがある)でドキュメントのコンテントにアクセスし、操作できるようにすることである。
また、本発明は、カメラで撮影した画像およびドキュメントのハードコピーや他の具現化された表示(電子ペーパや液晶ディスプレイ上でのドキュメントの表示など)間の、言語依存性の無いドキュメントコンテンツの操作のフレームワークを提供する。本発明の一例である、携帯端末を用いる場合においては、PCやラップトップコンピュータが無い状況でもドキュメントの操作をすることが可能となる。言語依存性のある紙ドキュメント中のテキストの区画に対するデータのリンクをサポートするだけのシステムと異なって、本発明はドキュメントの言語により制限されない。また、画像ベースとテキストベースのいずれのドキュメントも支援対象となる。さらに、本発明においては特別なマーカー、RFIDあるいはバーコードなどを紙上に用意する必要がない。加えて、本発明は、より精緻なドキュメントトークンの指定をサポートし、従来のドキュメント中のテキスト区画との粗いデータの関連付けではなく、点(ドット)のレベルでの操作も可能とする。ドキュメントのトークンとしては、例えば単語、記号、文字が含まれる。日本語や中国語の文字、数学記号、アイコン、人の写真中の一部である唇や目などを割り当ててもよい。したがって、トークンはテキスト中の単語である必要はない。
本発明の一形態に関わるフレームワークは、文書検索システム中に設けられてよい。例えば、本発明に基づく地図アプリケーションは予め注目領域を設定するためのマーカーの使用を避けることが可能なので、ユーザの定義による注目領域の作成が可能である。
当業者には知られているように、ドキュメント取り扱いシステムは、携帯端末を入力装置として利用できるように開発される。こうしたシステムにおける典型的な操作というのは、携帯端末を使って、紙ドキュメント中の領域を識別する、対応するデジタル対象物を検索する、そしてその対象物にユーザが指定した操作を適用するというものである。操作粒度はデジタル操作が適用される最小のドキュメント対象物を表し、粗から密まで様々である。例えば、操作粒度が粗いレベルとしてはページ単位、ドキュメント単位であり、操作粒度が細かいレベルとしては、点単位、トークン単位の操作が挙げられる。区画レベルの操作は、粗から密の間のどこかに当たる。こうしたシステムでは、ドキュメントの制約は、厳しいものから緩いものまである。電子マーカーを用いるドキュメントの操作は、マークの付加が必要なため、厳しい条件や制約がある。
一方で、通常のドキュメントを利用するシステムにおいては、追加となる識別マーカーが必要ないために、ドキュメントに対する制約が緩くなる。制約的なドキュメントと一般的なドキュメントとを扱うシステムを比較すると、光学的マーカーを付けたドキュメントを操作するシステムとテキストドキュメントを操作するシステムとは、やや制約のあるシステムといえる。
本発明の一形態では、緩い制約条件かつ精細な粒度でドキュメントを処理することが可能である。すなわち、特別な位置検出用のタグやマーカーを付加していない通常のドキュメントを取り扱うことができる。さらに、本発明のシステムおよび方法は、点レベルあるいはトークンレベルの操作に用いることができると同時に、ページ単位、ドキュメント単位の操作といったより粗いレベルにも用いることができる。こうした点で、本発明のシステムや方法は既存のシステムより優れている。
図1Aは、本発明の一実施形態であって、紙ドキュメント中にあるキーワードの定義を検索するためのフレームワークを用いた、ユーザの操作例を示す。第1に、ユーザは操作コマンド「Find」(検索)を選択する(102)。ユーザは、ビューファインダ内の十字線を対象となる単語に大まかに当てて、紙ドキュメントのスナップショットを撮影し、要求を送信する(104)。この第1回目の撮影画像は、携帯電話の内蔵カメラのレンズの性能が低い、照明が悪い、撮影方向の歪み等のために低品質かもしれない。スナップショットを受け取ると、フレームワーク(システム)はデータベースから高解像度のデジタルデータのページを検索し、ユーザにスナップショットに対応する部分を高解像度のデジタルデータを使ってビューファインダに表示させ、初期選択に対するフィードバックを提示する(106)。高解像度のデジタルページの検索とともに、その領域に関連付けられた他のメタデータもまた検索される。メタデータの例としては、テキストデータ、アイコン、これらの範囲を示す領域の情報等があげられる。こうしたデータは、後でユーザが携帯端末上で操作を行う特定のターゲットを構成する。ユーザが選択を変更する必要があれば、再度コマンドを発行する(106)。ドキュメント全体の検索が終了したら、フレームワークはページのサムネイル中のヒット箇所をハイライトし、ユーザが選択した単語に関連する情報を見出しやすくする(108)。
図1Bは、本発明の一実施形態におけるユーザの操作例を示し、ショッピングモール中にある店舗のクーポンを探す例であり、携帯電話カメラのビューファインダ内の十字カーソルをモールの地図110に記載された店舗、例えば112に合わせる。本発明の一実施形態のフレームワークは、スナップショットを受信すると、データベースから、十字カーソルの位置に対応するメタデータとともに高解像度のデジタル地図を検索する。一実施形態では、メタデータとしては、地図上でユーザに指定された店舗の座標を含んでも良い。他の形態例としては、検索された高解像度のデジタル地図を画像解析して得られた、マップ上の店舗を識別する数字であってもよい。検索されたメタデータを使ってユーザがターゲットとした店舗を識別してもよい。一旦、ターゲットとした店舗が識別されると、店舗の識別情報を用いて、ターゲットの店舗のクーポン114〜118を検索して入手でき、検索されたクーポンを、高解像度のデジタル地図と共に、あるいは高解像度のデジタル地図を付加せずに、ユーザの携帯電話に送信する。
なお、変形例として、ユーザは特定の店舗には携帯電話のカメラで照準をあてることはせずに、単にマップの写真やその領域のスナップショットを撮影する。その後、システムがデータベースを検索し、ユーザに高解像度のマップを送信する。ユーザは引き続きスタイラスや指を使ってタッチスクリーン上の地図の領域に円を描き、ユーザの選択に応答して、本発明の一実施形態のシステムは特定された領域にある店舗で利用できるクーポンを検索し、ユーザに入手できたクーポンを提供する。
また、本発明のフレームワークは地図アプリケーションのみで利用可能というわけではない。ユーザはどのような図形的なコンテントのスナップショットを撮影する場合でも、携帯電話のカメラを利用することができるので、本発明のシステムの一実施形態ではユーザによって撮影されたスナップショットとそのスナップショットに関連するメタデータに基づいて様々な種類の情報を検索することできる。
図2は、本発明に関わる一実施形態であって、紙ドキュメント中の主題(対象)を見出すためのフレームワークを用いる方法のフローチャートを示す。検索する主題が例えば、ドキュメント中の「イラスト」という言葉に関するものだとする。この方法はステップ200から開始される。201でユーザはコマンドを指定する。ここでのコマンドは図1における「検索」に当たる。あるいは、「ウェブ検索」「コピー」「注釈」といった指令であってもよい。202でユーザは大まかにターゲットに当たる単語にカメラを向け、紙ドキュメント中に登場する、この例では「イラスト」という検索対象としたい単語に十字カーソルの照準を合わせたスナップショットを撮影する。この結果、202ではその単語あるいはフレーズを含むドキュメントの一領域のスナップショットが、選択したコマンドの主題としてフレームワークに供給される。203では、ユーザは、システム処理されたスナップショット中で選択したターゲットとなる単語の精査と確認を行うことができ、そのスナップショットはフレームワークにより自動的に指定した領域が拡大され、十字カーソルによって当初指定された単語がハイライト処理される。204では、システムはシステム処理後の画像内で行われた主題の変更や決定を受信する。205で、フレームワークは、ハイライトされた主題についてコマンド処理されたドキュメントページを表示する。例えば、コマンドが「検索」で主題が「イラスト」であるとき、ドキュメントのページ中に発見される単語「イラスト」をハイライトしてそのドキュメントを表示する。206でこの方法は終了する。
203でユーザに提示される、システムにより画像品質が改善された表示は、クライアント端末として機能する携帯電話と通信を行うサーバに保持されるデータベースから受信される。本発明の一形態では、携帯電話内の抽出手段でスナップショット中の固有の特徴を抽出し、保持される高品質のデジタル画像と比較するために該固有の特徴がデータベースに送信される。固有の特徴は、様々な手法で得られる画像記述ベクトルの形態であってもよい。データベースに記憶される高品質の画像もまた同様の画像記述ベクトルを解析処理しておく。本形態においては、スナップショットの画像記述ベクトルは記憶された画像の画像記述ベクトルに対して比較される。あるいは、スナップショットの画像データがサーバに送られ、サーバ側でその画像の画像記述ベクトルを抽出するようにしてもよい。
既存のシステムと異なり、本発明に関わる実施形態ではテキスト(文字列)とグラフィックの両方のドキュメントに対応しており、マーカーや特定言語への依存性がない。対応するポイントマッチングによる画像記述子の生成の一例について、図3〜図6を用いて説明する。ただし、画像記述子としては、画像領域を小領域に区分したときの濃度分布に基づいて局所的な画像特徴を記述した局所画像特徴記述子であればよく、多段階のスケール(拡大縮小)の画像から抽出した特徴を連結して記述子を構成するSIFT, SURFといった局所不変画像特徴記述子を利用することが特に望ましい。ただし、このような画像記述子の中でも、以降で説明するFIT法の画像記述子が、データ量が少なく、高速かつ高精度を両立できる点でより望ましい。
図3は、高速不変変換(FIT:Fast invariant transform)による計算により新規の特徴セットの構築を行う方法のフローチャートを示す。ここで例示するFIT特徴の構築プロセスはステップ300から開始される。301で入力画像が受信される。この段階かこれより後で、他の入力パラメータを受信してもよい。302で、入力画像はガウシアンピラミッドを構築するためにガウス分布により画像強度(例えば、濃度、輝度など)がぼかされた画像(ガウシアンブラー処理:Gaussian-blurred)を段階的に形成する。303で、2つの隣接するスケール間のガウス分布によりぼかされた画像間の差分を計算し、DoG(差分ガウシアン:Difference of Gaussian)ピラミッドを構築する。304で、キーポイントが選択される。例えば、DoG空間における極大値あるいは極小値を利用し、その空間位置とその極大値あるいは極小値が計算されるスケールを、DoG空間とガウシアンピラミッド空間におけるキーポイント位置に用いる。ここまでの行程はFITの場合でも、周知のSIFT法で画像特徴を取得する場合と同様である。
305において、第1サンプリングポイントを呼ばれる記述子サンプリングポイントはガウシアンピラミッド空間中の各キーポイントの位置に基づいて決定される。第1サンプリングポイントと呼ぶのは、後で第2サンプリングポイントと呼ぶ点と区別するためである。第2サンプリングポイントのいくつかは、後で図5Aに関する説明で詳説するが、各第1サンプリングポイントと共通している。各第1サンプリングポイントと対応するキーポイントは座標空間−スケール空間(ガウシアンピラミッドが構築される、画素に対応する2次元の座標空間とこれに垂直な1次元のスケールを示す軸で定義される空間)における3次元ベクトルによって定義される。すなわち、キーポイントから開始し対応する第1サンプリングポイントで終了するスケール依存の3次元ベクトル(言い換えるとキーポイントからの相対的な空間位置)が、キーポイントから第1サンプリングポイントを決定するために利用される。
306において、各第1サンプリングポイントにおけるスケール依存の勾配が計算される。これらの勾配は第1サンプリングポイントとこれに関連付けられた第2サンプリングポイントとの間の画像強度の差分に基づいて決定される。ただし画像強度の差分が負である場合、第2サンプリングポイントの強度が第1サンプリングポイントの強度よりも強いことを示しており、この場合はここでは差分はゼロとする。
307では、一つのキーポイントに関するすべての第1サンプリングポイントの勾配(ベクトル)が、特徴記述子としてのベクトルを構成するように結合される。308で処理を終了する。
図3に示すFITは、良く知られた従来のSIFT特徴の構築プロセスよりも高速であるが、その理由を説明する。各128次元のSIFT記述子に対して、4×4のサブブロックからなるブロックがキーポイントの周囲に設定されており、各サブブロックは、全体が16×16画素のうちの少なくとも4×4画素が含まれるように設定される。したがって、勾配を求めるには、16×16=256画素分あるいはキーポイントの周囲の幾つかをサンプリングした点における計算が必要になる。さらに、各サブブロックに4×4画素以上の領域を含むようにすることもよく行われている。各サブブロックが4×4画素以上の領域を含む場合、さらに多くの数の点に関して勾配を計算しなければならなくなる。勾配はベクトルであり、値と方向あるいは回転を含む。各画素における勾配の強度m(x、y)と回転θ(x、y)を計算するには、この方法の場合、5回の加減算、2回の掛け算、1回の割り算、1回の平方根、そして1回のアークタンジェント計算が必要となる。この方法は16×16ガウシアンウィンドウ内の256の勾配値についての重み付けもまた必要とする。もし勾配値が各点について正確に計算されるべきであるなら、SIFTはスケール空間内での内挿計算も必要とする。計算コストを考慮すると、SIFTの実装は、勾配計算の負荷が通常非常に高くなる。
一方で、FITプロセスを用いた新規な方法の一例では、単純な40回の加減算の操作を必要とする。もしより正確な勾配の計算を行うためにスケール空間の内挿を用いたとしても、40個の勾配値の内挿計算の計算コストは比較的小さい。一方で結果的に得られる、FITの特徴記述子としての精度はSIFTと同等であった。なお、ここでは特定のケースで比較を行っているが、勿論これに限定される訳ではなく、SIFTよりもFITの方が、同等の性能を得るのに必要とされる、計算コストあるいはコンピュータの性能を低くできる。
図4はFIT記述子を構築するための概要を示している。
図3におけるフローチャートの各ステップが図4に概略的に示されている。ガウシアンピラミッド302を構築するための画像のぼかし(blurring)とDoG空間を得るための差分計算は左上で示され、キーポイントの計算は右上角304で示される。キーポイント601に関する5つの第1サンプリングポイント602が左下305に示される。座標空間−スケール空間306における各第1サンプリングポイントでの勾配計算と、特徴記述子ベクトル307へ至る5つの第1サンプリングポイントからの勾配の結合について右下角に示されている。
図5Aは、この新規手法における画像記述子の構築方法のフローチャートである。
図5Aと図5Bは、図3の304〜307の工程を参照することで理解が容易になると思われるが、ここで示される画像記述子の構築方法は図3の手法に限られるものでなく、入力パラメータの受信、直接のキーポイントの受信あるいはスケールを決定するガウシアンピラミッドの構築も含むような異なるプロセスを用いて行われても良い。しかし、図5Aおよび図5Bの方法を行うステップでは、図3に示すキーポイントを決定するために用いられる差分ガウシアン空間の構築を含めても含めなくてもよい。キーポイントは他の方法で配置してもよく、スケールが変化するガウシアンピラミッド内にある限りにおいては、図5Aおよび図5Bの手法は有効である。
この方法は工程500から開始される。501でキーポイントが配置される。キーポイントは図5Bに例示するフローチャートに示す差分ガウシアン空間の極大極小値を利用する方法を始めとして多くの異なる手法を用いて設定することができる。502では、第1サンプリングポイントは、スケールを一つのパラメータとして含む入力パラメータに基づいて決定される。503では、第2サンプリングポイントは、やはりスケールを含む入力パラメータのいくつかを用いて、各第1サンプリングポイントに関して決定される。504では、第1画像勾配が各第1サンプリングポイントごとに得られる。第1画像勾配は各第1サンプリングポイントと対応する第2サンプリングポイント間の画像強度や他の画像特性の変化を表す第2画像勾配に基づいて決定される。505で、キーポイントでの記述ベクトルは、キーポイントに応じたすべての第1サンプリングポイントに関する第1画像勾配を連結(concatenate)することで生成される。506で方法は終了する。
図5Bは、本発明の新規な方法の一実施形態に関わり、画像記述子を構築するための方法の一例に関するフローチャートを示す。
この方法は507から開始される。508において、キーポイントは差分ガウシアン空間中に配置され、各キーポイントを原点とする副座標系が設定される。509では、一つがスケールを決定し、他の2つがキーポイントを原点とする副座標系における第1サンプリングポイントの座標を定めるパラメータを含んだ入力パラメータに基づいて、5つの第1サンプリングポイントが決定される。第1サンプリングポイントは、キーポイントを原点とし、ガウシアンピラミッド内の異なるスケール中にある第1サンプリングポイントが終端として決定される、予め距離と方向が定められたベクトルによって定義される。510で、各第1サンプリングポイントに対応して8個の第2サンプリングポイントを決定するために、やはりスケールを含むとともに、第1サンプリングポイントに対する円の半径を決定するためのパラメータを含む入力パラメータを用いる。8個の第2サンプリングポイントは、円の中心となる第1サンプリングポイントのスケールに応じて半径が変化する円によって決定される。第2サンプリングポイントはキーポイントを原点とし、第2サンプリングポイントを終点とするベクトルによって決定される。511で、各第2サブサンプリングポイントでの第2画像勾配ベクトルを決定する。512では、第1画像勾配を5つの第1サンプリングポイントごとに得る。第1画像勾配は、第1サンプリングポイントの8つの第2画像勾配を要素ベクトルとして含む。513で、キーポイントの記述ベクトルは、キーポイントに対応する5つの第1サンプリングポイントのすべてに関する第1画像勾配を連結(concatenate)して生成される。514で方法は終了する。
図6は、本発明の一形態における、画像記述子を構築する方法に関する。
ガウシアンピラミッドおよびDoGピラミッドは連続する3次元の空間−スケール空間(spatial-scale space)に構築されると考えることができる。この連続する3次元の空間−スケール空間の座標系中で、空間平面は2つの垂直軸uおよびvで定義される。第3の軸はスケール軸であり、空間軸uおよびvで形成される平面に垂直な第3の軸wによって定義される。スケール次元はガウシアンフィルタのスケールを示す。このため、空間−スケール空間は空間平面と第3の軸であるスケールベクトルとにより形成される。画像は2次元空間平面内に形成される。画像のぼかし(blurring)は第3の次元であるスケール次元に沿って段階的に施される。各キーポイント601は、u、v、w軸の原点となる局所的な副座標系の限定とされる。
この空間−スケール座標系において、画像中のポイントはI(x,y,s)で表現することができ、(x,y)は空間領域(画像領域)における位置に対応し、sはスケール領域におけるガウシアンフィルタのスケールに対応する。この空間領域は、画像が形成される領域である。したがってIは座標(x,y)でスケールsのガウシアンフィルタによりぼかされた画像に対応する。キーポイントを原点とする局所副座標系は空間−スケール空間中の記述子の詳細を記述するために定められる。ここでの副座標系では、キーポイント601自体は座標(0,0,0)とし、uの方向は空間領域におけるキーポイントの配位に沿わせてもよい。キーポイントの配位はSIFT法と同様の手法で決められる支配的勾配ヒストグラムビン(dominant gradient histogram bin)によって決定される。空間領域におけるv方向は、u軸を空間領域内で原点を中心に時計回りに90度回転して得られる。w軸はスケールの変化に対応しており、空間領域に垂直であり、スケールの増加方向に伸びる。これらの方向は例示的なものであり計算を容易にするために選択したものである。副座標系に加えて、スケールパラメーターd、sd、およびrは、第1サンプリングポイント602を定義し、各第1サンプリングポイントの周囲での情報収集の制御を行うために用いる。
ここで示される実施形態においては、各キーポイント601に関して記述子の情報は、5つの第1サンプリングポイント601,602(キーポイント自体は含んでも含まなくてもよい)において収集される。図6は、キーポイント601を原点とする副座標系における第1サンプリングポイントの分布を表している。ここで第1サンプリングポイントを、副座標系における原点(0,0,0)からサンプリングポイントへの3次元ベクトルOi(ここでi=0,1,2,3,4)と定義する。このため、第1サンプリングポイントはキーポイントを(0,0,0)と定義した場合、次のベクトルにより表される。
0 = [0 0 0]
1 = [d 0 sd]
2 = [0 d sd]
3 = [-d 0 sd]
4 = [0 -d sd]
各第1サンプリングポイントベクトルOiにおいて、最初の2つの座標はベクトルの終点であるu座標およびv座標を示し、第3の座標はスケールに対応するw座標を表す。
なお、異なる数の第1サンプリングポイントを使用することももちろん可能である。
これらの図に示される実施形態において、第1サンプリングポイントは原点つまりキーポイント601自体もまた含む。しかし、第1サンプリングポイントはキーポイントを含まないように選択してもよい。第1サンプリングポイントの座標を定めるとき、これらの点は異なるスケールから選択される。この形態においては、第1サンプリングポイントは2つの異なるスケール、0およびsdから選択される。しかし、第1サンプリングポイントはそれぞれ異なるスケールで選択されるか、異なるスケールの組み合わせから選択されてもよい。なお第1サンプリングポイントがすべて同じスケールに位置するものから選択されたとしても、後で説明するように本方式は第1および第2サンプリングポイントから選択する点でSIFT法とは区別される。
本実施形態において、各5つの第1サンプリングポイントにおいて、8つの勾配値が計算される。最初に、ベクトルOijで表される8つの第2サンプリングポイントが、各第1サンプリングポイントの周囲に、以下のベクトルOi,によって定義される。
ij - Oi, = [ri cos (2 π j/8) ri sin (2 π j/8) 0]
i=0のとき。ここで j= 1, …, 7
ij - Oi, = [ri cos (2 π j/8) ri sin (2 π j/8) sd]
i≠0のとき。ここで j= 1, …, 7
この等式によれば、これら8つの第2サンプリングポイントは、図6に示すように、第1サンプリングポイントを中心とした円の周囲に、一様に分布している。円の半径は第1サンプリングポイントが位置する平面のスケールに依存し、このためスケールが増加すると半径も増加する。半径が増加すると、第2サンプリングポイントは第1サンプリングポイントからより離れて、より高いスケールでの自身以外から収集されることになるため、サンプリング箇所を集中させる必要がない。これらの8つの第2サンプリングポイントOijとそれらの対応する中心の第1サンプリングポイントOiに基づいて、各第1サンプリングポイントの第1画像勾配ベクトルViが、次の数式から計算される。
Iij = max (I(Oi) -I(Oij)), 0)
ここで Iij はスカラー
Vij= Iij/ [SQRT (sum over j=0 to j=7 of Iij 2)]
ここで、 Vij はスカラー
i =[Vi0 (Oi-Oi0)/|Oi-Oi0|], Vi1 (Oi-Oi1)/ |Oi-Oi1|, Vi2 (Oi-Oi2)/ |Oi-Oi2|, Vi3 (Oi-Oi3)/ |Oi-Oi3|, Vi4 (Oi-Oi4)/ |Oi-Oi4|, Vi5(Oi-Oi5)/ |Oi-Oi5|, Vi6 (Oi-Oi6)/ |Oi-Oi6|, Vi7 (Oi-Oi7)/ |Oi-Oi7|]
上述の数式中で、Viは、スカラー成分[Vi0, Vi1, Vi2, Vi3, Vi4, Vi5, Vi6, Vi7]と方向[Oi-Oi0, Oi-Oi1, Oi-Oi2, Oi-Oi3, Oi-Oi4, Oi-Oi5, Oi-Oi6, Oi-Oi7]を有すベクトルである。この方向ベクトルは、ベクトル長で除算することで正規化される。
スカラー値Iは、特定の場所における画像の強度レベルに対応する。スカラー値Iijは、各第1サンプリングポイントにおける画像強度I(Oi)と、その第1サンプリングポイントを中心とする円上を等間隔で選択した8つの第2サンプリングポイントのそれぞれの画像強度I(Oij)との差分で与えられる。もし、この画像強度中の差分が1以下であって負となる場合、これはゼロに設定される。この結果、成分の値Vijは負の値を持つことが無くなる。各円に沿ってj=0, …, 7の8つの第2サンプリングポイントが、5つの第1サンプリングポイントi= 0, … , 4ごとに存在する。このため、5つの第1サンプリングポイントのそれぞれに対応する1つの成分ベクトルViとなる、8つの成分ベクトルIi0i0/|Oi0|, … , Ii7 i7/| Oi7|が存在する。各成分ベクトルViは8つの成分を有する。Ii0, … , Ii7 に対応する成分ベクトルは第2画像勾配ベクトルと呼ばれ、成分ベクトルViは第1画像勾配ベクトルと呼ばれる。
5つの第1サンプリングポイントにおける5つの第1画像勾配ベクトルViを結合することで、あるキーポイントにおける記述子ベクトルVは、次の式で表される。
V = [V0, V1, V2, V3, V4]
先の数式において、パラメータd、sd、rはいずれも副座標系のキーポイントのスケールに依存する。キーポイントのスケールはスケール値sによって記述され、整数あるいは、ベースとなる標準偏差あるいはスケールs0あるいは他の方法で決定される値を非整数倍する値であってもよい。決定の仕方に関係なく、スケールsはキーポイントの位置に応じて変化する。3つの定数dr、sdr、そしてrrはシステムへの入力値として提供される。5つの第1サンプリングポイントを決定する値d、sd、rは、3つの定数dr、sdr、rrをスケール値sとともに用いることで得ることができる。第1サンプリングポイントの周囲の第2のサンプリングポイントが位置する円の半径は、同じ定数の入力値を用いて得ることができる。第1および第2のサンプリングポイントの座標は次の数式から得られる:
d = dr ( si
sd = sdr ( si
ri = r0 ( (1+sdr)
ここで r0 = rr ( si、siはi(i=0,1,2,3,4)によって変動してもよい
なお、本実施例では、sを特定のキーポイントに固定する。
上記すべての等式はスケールsを要素として含み、スケールの関数として座標系が変化するような、スケール依存性をいずれもが持つ。例えば、各第1サンプリングポイントが位置する平面のスケールが、他の第1サンプリングポイントが存在するスケールと異なってもよい。このため、第1サンプリングポイントが変化すると、スケールsは変化し、すべての座標d、sdmおよび半径rも変化する。スケール依存性を有する限りにおいては、異なる等式が第1および第2のサンプリングポイントの座標を得るのに使用されてもよい。
場合によっては、各勾配ベクトルのスケールsは計算により得られた、ガウシアンピラミッド内の画像平面間に位置してもよい。これらの場合、勾配値は一つの第1サンプリングポイントに近接する2つの画像平面に基づいてまず計算される。そして、ラグランジェ内挿を用いて、第1サンプリングポイントのスケールでの各勾配ベクトルが計算される。
本発明の一実施形態で用いられる新規な方法において、ガウシアンピラミッドを構築するために用いられる第1ガウシアンフィルタの標準偏差は、所定値としてシステムに入力される。この標準偏差パラメータはs0として記述される。変数であるスケールsiは、si=mi0といったようにs0を整数あるいは非整数倍することで定義することができる。あるいは、siの変形例としては、図2および図4で示すように各オクターブの最初と最後の平面の間に、3つの平面を嵌め込むようにして決定してもよい。
前述の新規な手法を用いた実施例において、ドキュメントのインデックス化そして検索をするために低次の画像特徴を用い、1000ページのテスト用データセットに対して99.9%の識別率を達成することができた。さらに、画素レベルからドキュメントレベルにわたる様々な粒度でのデジタル的な操作をサポートする。この特徴は携帯端末−紙間のインタラクションにおける入力言語を拡張するために利用される。本発明の一実施形態に関わるフレームワークは、より複雑なアプリケーションへの橋渡しとなる。単語検索機能に加えて、他の実施形態として、ウェブ検索、写真コラージュ、精細なマルチメディアアノテーション、コピー、ペーストといった技術をサポートすることができる、
検索の応用に加えて、上記実施例における単語の検索のために、本実施形態のフレームワークは既存のシステムでは提供されていない、多様な携帯端末−紙アプリケーションもまた可能とする。
ウェブ検索や辞書検索といった操作は、一般的にトークンレベルの操作であると考えられる。本発明の一形態においては、マーカーを含まない通常のドキュメントに対して同じ操作を行うことができる。人々は通常読書中に不慣れな単語に遭遇する場合がよくある。ウェブ検索をするために携帯電話に手でその単語を入力して検索することもできるが、本発明の一形態によれば、ユーザが検索操作をより便利な「ポイントアンドクリック」(内蔵カメラでのターゲットとなる単語の撮影および選択)の操作によって開始することが可能となる。同様の発明が電子辞書アプリケーションに対しても適用でき、選択した単語の発音やビデオインストラクションといったマルチメディア情報を提供することができる。ペーパーリンク(PaperLink)のようなOCRベースのシステムも辞書機能を提供するが、従来技術では一般のドキュメントに対しては、先に述べたトークンレベルの操作を行うことができない。
コピーアンドペーストの操作はコンピュータ上で最も頻繁に使用されるデジタル操作といえる。しかし、こうした有力な機能は通常紙ドキュメント上では利用することができない。本発明の一形態に関わるフレームワークは一般の文書に対してこの機能をサポートすることが可能となる。ユーザはテキスト、画像、表あるいはこれらの混合したコンテンツを含む任意の領域を紙から抽出し、システムのクリップボードに送り、その後電子メールやノートへそれらを転記したり、紙文書上にある単語や図形のアノテーションとして付加したりすることができる。他の既存のシステムでもある程度類似の機能をサポートしているかもしれない。しかし、これらのシステムでは、データの種類や付加してあるマーカーによって操作できる対象に通常制約がある。例えば、いくつかの既存システムではテキスト専用であり、一般の文書に対しては簡単には利用できない。
本発明の他の一実施形態は、複数の写真を組み合わせた写真コラージュを作成するものである。人々が実際に対面している状況では印刷された写真の方がデジタルデータを取り扱うよりも便利な場合もある。しかし、このような物理的な物は、多様な視覚的な効果を与える強力なデジタル処理の恩恵を受けることができない。既存のシステムのいくつかでは、ユーザがプリントされた写真に対応するデジタル写真を検索して共有することを可能としている。しかし、こうしたシステムでは、ファイル単位の粒度でしか機能しない。本発明の一実施形態においては、写真コラージュの操作として、より細かい粒度の写真操作で行うことを可能とする。例えば、ユーザは印刷されたコラージュの一部の写真領域、例えばガールフレンドの写っている部分、を選択し、様々な視覚効果を適用し、適当な写真コラージュ作成ツールを用いてコラージュを作成する。そしてユーザはコラージュのプリントを指示ししたり、他の人に電子メールで送信したりすることができる。

本発明の一実施形態として、配布した書類上の動的なコンテントを利用するということがアプリケーションとして考えられる。プレゼンテーションソフトウェアにより作成された印刷スライドはプレゼンテーションやレクチャーの配布物としてよく用いられる。紙の配布物は用意にマークをつけたり誘導したりできるものの、スライド中に埋め込まれた動的な情報(アニメーション、ビデオあるいは音声など)はスライドを印刷すると失われてしまう。そこで、例えば、適当なユーザインターフェースを介して、ユーザが紙上のビデオフレームウィンドウにカメラ付き携帯電話のカメラを向け、その電話上で再生されるマルチメディアファイルを検索することができる。同様に、スライド再生も行って、埋め込まれたビデオを見ることもできる。
以下では、本発明の一実施形態に関わるフレームワークの構成と、適用可能なアプリケーションの概要を示す。
本発明の実施形態においては、普通の紙ドキュメントを識別し、携帯端末−紙間の操作をデジタル処理へと結びつける。本発明の一実施形態では、カメラ付き携帯電話を用いたインターフェースで、ユーザがトークンおよび点(ドット)レベルのドキュメントのコンテントの操作をサポートする際の制約を緩和するものである。一般の紙ドキュメントの認識能力というのは、本発明の一実施形態においては、言語やマーカーへの依存性無しにドキュメントを識別するための能力である。カメラ付き携帯に基づくインターフェースにおける制約は、低品質な撮影画像や小さいディスプレイによるものである。ドキュメント認識とユーザインターフェース技術を統合することで、本発明の一実施形態では、言語に依存せずに、ドキュメントのハードコピーに対する多様な操作を、カメラ付き携帯電話を通じてサポートするフレームワークを提供する。操作されるハードコピーはマーカーが無くてよく、マーカーによってタグ付けなどがされている必要がない。ただし、マーカーが付加されたドキュメントもドキュメントの一種であるので、当然本発明のフレームワークを適用して利用することができる。
図7は、本発明の一実施形態に関わる、携帯電話およびドキュメントハードコピーを用いたデジタルドキュメント操作を実現させるフレームワークの概要を示す。特に、この図は本発明の一形態に関わるフレームワークを表し、データサーバ701、コマンドシステム702、そして幾つかのアプリケーションを含むドキュメントサービスパッケージ703を備える。コマンドシステム702とドキュメントサービスパッケージ703は、ここでは携帯電話706に内蔵され動作する。
携帯電話706はデータサーバ701のクライアントとして機能する。このため、以下の記述ではデータサーバと接続する携帯電話をクライアントと呼ぶ。
データサーバ701は、ドキュメントレポジトリとして機能する。一実施形態では、サーバ701は異なるコンピュータプラットフォーム上で実行されてもよい。あるいは、ドキュメントのスナップショットの撮影に用いるのと同じカメラ付き携帯電話上で実行されてもよい。プリンタ704は、サーバ701から受信するデジタルコピーを印刷するともに、ドキュメントの画像データは自動的にサーバ701に送信され、インデックス化された後にデジタルコピーとしてサーバ701内のデータベースに保持される。画像に関する他のメタデータ(例えば、デジタルドキュメントそれ自体、テキスト情報、アイコン、ドキュメント中の境界線など)が、またサーバ701に送信されてもよい。スキャナ705はハードコピー707をスキャンし、デジタルコピーに変換することが可能であり、これはデータサーバ701に保存されてもよい。スキャナ705でハードコピー707をスキャンしたときに、ドキュメント画像は自動的にサーバ701へ送信され、やはりインデックス化された後にデジタルコピーとしてサーバ701内のデータベースに保持される。データベースの構築後、ユーザは、デジタル操作を行うために、例えばページ画像とテキストといった、特定の紙ドキュメント中の情報を、携帯電話706を用いて送信して、サーバに照会する。ユーザは、ドキュメントコンテントの変更(例えばドキュメント中の図に対する音声アノテーションの付加)をすることも可能である。こうした変更や更新は、携帯電話706内にあるドキュメントデータに対して適用し、ドキュメントの更新されたバージョンを保存用としてサーバに送信するようにしてもよい。あるいは、変更と更新がサーバ701に送信され、サーバ上にあるドキュメントデータに適用するようにしてもよい。
携帯端末−紙間の操作は、携帯電話706上で動作するコマンドシステム702によって実行される。コマンドシステム702は、LinuxやWindows(登録商標)のシェルプログラムと同様な機能を果たす。こうすることで、ユーザにとっては、コマンドやアプリケーションの選択、対象とするコマンドの選択およびパラメータの調整といった点において、共通した操作手法が提供される。アプリケーションにとっても、撮影画像、キー入力、スタイラス入力といった生のユーザ入力の処理や、紙ドキュメントに関連する情報の検索や更新のためにサーバ701と連携する上で、アプリケーションプログラミングインターフェースAPIを利用することを可能とする。
本発明の実施形態において、コマンドシステム702のアプリケーションは、ユーザがドキュメントを操作するための特定の処理を目的とするものである。コマンドシステムの支援により、ドキュメント操作や写真編集など、多様な範囲でのアプリケーションを提供することが可能となる。コメンドシステムにより支援される他のアプリケーションの例としては、電子メール、電子辞書、コピーおよびペースト、ウェブ検索、単語検索といったものがある。
本発明の一実施形態における、データサーバおよびコマンドシステムは、多様な新規アプリケーションのプラットフォームとして利用することも可能である。ユーザは紙および携帯電話の長所を併せ持ったフレームワークから恩恵を受けることができる。
図8は、本発明の一実施形態に関わる、携帯電話およびドキュメントハードコピーを用いたデジタルドキュメント操作を実現する方法のフローチャートである。この方法は800から開始される。801で、印刷されるドキュメントのデジタルデータ化されたコピー、あるいはユーザによってスキャンあるいは他の手法でデジタル化されたデータは、データサーバにより受信され、802でデジタルコピーがデータベース中に保存される。データベース中に保存された素材には、各ドキュメントの全体、一部、あるいはコンテントを含んでよい。803において、データサーバは携帯電話から、クエリとして、例えばデータベースに保存されたドキュメントの一つの一部分であるかもしれない、画像、単語、といったコンテントを受信する。本発明の一実施形態として、803におけるドキュメントクエリとしては先に説明した新規なFIT法による記述子とすることができる。804で照会されたコンテントを含むドキュメントがデータサーバから携帯端末に対して送信される。あるいは、完全なドキュメントや完全な1ページの代わりに、要求されたコンテントだけ、あるいはそのコンテントを含む部分がデータベースから検索されて送信されてもよい。805で、コンテントはユーザにより携帯端末上で変更され、変更されたコンテントはデータサーバで受信され、変更あるいは更新コンテントとしてデータサーバに保存される。806で、方法は終了する。
以下では、サーバ側でのドキュメント識別と、クライアント側でのコマンドシステムでの詳細を説明する。例えば、スナップショットに基づくドキュメント検索およびコマンドシステムを用いた携帯端末−紙間操作について詳細に説明する。

本発明の一実施形態において、先に説明した新規なFIT法を、ドキュメントクエリを実行するために利用することができる。この方法は、ドキュメントのページを表現するために低次の画像特徴を用いる。そして、テキスト固有あるいは図形特有の情報を用いないので、この方法は一般的なドキュメントで利用でき、言語やマーカーに依存しない。この特徴が、本発明の一実施形態に関わるフレームワークの、他の携帯端末−紙間操作における技術と異なる点である。しかし、本発明の一形態は、ドキュメント検索を実行するうえで、上記方法に限定されるものではない。ドキュメント中に埋め込まれたマーカーや、文字列や特定の言語の形状や構成等の方法に依存しない、一般ドキュメント中の特徴を検出するための方法もまた本発明に用いることができる。
新しいドキュメントがサーバに送信されたときに、ドキュメントの各ページについて特徴抽出が実行され、抽出された特徴はデータベース中に保存される。ユーザがクエリとしてスナップショットを送信したときに、同様の特徴抽出アルゴリズムが適用されて、抽出された特徴はデータベース中に保存されている抽出された特徴と比較される。サーバは類似度を降順に並べたときに最もマッチする候補ページを返す。ユーザがサーバ701より受信したドキュメントが所望のドキュメントページであることを確認し、ユーザは通常携帯電話706に搭載されたコマンドシステムを通じてドキュメントを操作することができる。
805で、コンテントはユーザにより携帯端末上でアノテーション付けされて、サーバに戻されてもよい。より粒度の細かいアノテーションが可能なために、可能となるアプリケーション例もある。大多数の紙−電話アプリケーションは、単に紙ドキュメントからの情報抽出だけに留まるが、本発明の実施形態では、さらに携帯端末−紙間操作を介してデジタル情報の追加やドキュメント編集も可能とすることができる。また本発明の一実施形態のフレームワークでは、プリントアウトをそれらのデジタルコピーのプロキシとして利用することで、携帯電話および紙を介してなされたコマンドが効率的に対応するデジタルドキュメントに適用される。
本発明の一形態においては、特定の紙ドキュメントにマルチメディアアノテーションを付加することをサポートし、言語やドキュメントのジャンルに制約がなく、より精細な粒度でのアノテーションを可能とする。例えば、プリントアウト中にあるフランスの作曲家である「オリビエ メシアン」についてウェブ検索を行ったあと、ユーザは作曲家に関する紹介を選択したり、それを紙上の名前に対してアノテーションとして付加したりする。紙になされた更新は、サーバ側のデジタルファイルに伝達され、ユーザは後でオリビエ メシアンの名前に対して自動的にハイパーリンクが付加された新しいデジタルバージョンのドキュメントをダウンロードすることができる。
図9は、コマンドシステムを用いた紙−電話間操作の方法のフローチャートの一例を示す。この図は基本的なユーザ側の操作と、ユーザが携帯電話を使ってコマンドを発信したときのデータ処理を表す。ユーザは、最初に紙ドキュメントのセグメントの写真を撮影し、写真の中で対象の単語や画像部分を、タッピング、アンダーライン、あるいは線で囲むといった方法で、対象選択する。なおこのステップは、もしユーザが電話に搭載されたビューファインダを用いて、対象を十字カーソルで狙った上でスナップショット撮影をする場合にはスキップすることもできる。このスナップショットは、対応するデジタルドキュメントページや他のメタデータを検索するためにデータサーバに送信される。サーバのフィードバックに応じて、ユーザへ正しいデジタルコピーが渡され、当初の選択が正確かどうかをチェックし、必要な調整を行う。最後に、デジタルドキュメントID、指令対象、パラメータが特定のアプリケーションに渡され、実際にそのコマンドが実行される。この方法を用いることで、ユーザの携帯電話で撮影された、ぼけた低品質のドキュメント画像が、ユーザの設定に応じて、ユーザが閲覧したり、操作するために、そのデジタルドキュメントの鮮明なデジタル画像に置き換えられる。
図9のフローチャートは900から開始される。902で、ユーザは携帯電話上でコマンドを選択する機会を与えられる。903で、ユーザは選択したコマンドの指令対象を含んだ紙ドキュメントのスナップショットを撮影する。例えば、コマンドが単語のコピーである場合、ユーザはコピーしようとしているそのフレーズや単語に向けて十字カーソルを当て、ドキュメントのスナップショットを撮影する。904で、ユーザはスナップショット中の指令対象を選択あるいは選択しなおすために、下線を引いたり他の手法で対象語やフレーズを選択する。905で、スナップショットは電話からサーバに送られる。906で、携帯電話は合致するページとその合致ページに関連付けられたメタデータを受信する。また、他の形態としては、合致したドキュメントのページを受信する代わりに、スナップショットと合致するページの領域や部分だけを受信するようにしてもよい。907で、受信した候補ページは、ユーザにより確認され、修正されてもよい。この段階で、ユーザはさらに、現在閲覧中のより高品質のデジタル画像に基づいて、選択をやり直してもよい。ただし、もしオリジナルのスナップショットの品質が十分なら、それに基づいて選択をしなおしても勿論構わない。ユーザは、この段階で閲覧しているページのコンテントに対して変更やアノテーションの付与を行ってもよい。908で、携帯電話では受信したドキュメントページに対する正確さに関してユーザから入力を受け付ける。もし、受信したドキュメントページが正しければ処理は続行され、もし受信したコンテントがユーザが意図したものでなければ、909で携帯電話は他に候補となるページが入手可能かチェックする。もし、サーバから他の候補ページが提供される場合には、907の工程と908の工程が繰り返される。サーバにより送られたドキュメントページと携帯電話によって受信されたページが正しい、あるいは、サーバから提供されたすべての候補ページが確認されたときは、プロセスは910に移る。910で、ユーザは選択されたコンテントが正しいか、例えばサーバによりハイライトされたコンテントが正しいか、を照合する。もし選択が正しくなければ、911でユーザは選択を、例えば、電話上で表示されたドキュメント内で、タッピングする、下線を引く、円で囲むといった手法で、選択をしなおす機会が与えられる。もし正しいドキュメントページ上の正しいコンテントの正しい選択である場合には、912でユーザは携帯電話上でアプリケーションに対するコマンドを実行するための必要なパラメータを提供する。例えば、適当なドキュメントのドキュメントID、「検索」コマンドと「イラスト」の選択、といったものが、キーワード検索のアプリケーションを携帯電話上のコマンドシステム上で提供される。913で、携帯電話はコマンドを実行する。914で、結果がユーザに対して表示され、915でプロセスが終了する。なお、前述の911から914の工程は複数回繰り返すことも可能である。一例として、ユーザが楽譜のスナップショットを撮影し、本発明のフレームワークを用いて確認するとする。デジタル画像化された譜表内で音楽記号を編集し、その譜表に応じて音楽演奏を行うアプリケーションを動作させる。電話上に表示されているデジタル化された楽譜の中で、選択したセクション中で連続的に音を伸ばすために譜表に沿って線を描くためにスタイラスを用いる。これを行っている間に、引いた線の各点が取得され、即座に「音楽演奏」のコマンドに送られる。言い換えると、ステップ911から914が実行される。ユーザがスタイラスを画面から離すまで、こうした繰り返しが続けられる。
アプリケーションを含む携帯電話システムのコマンドシステムの設計について以下に説明する。図7に示すコマンドシステム702の一般的な機能は、コマンド動作の特定(オペレータ)、コマンドの対象の選択(オペランド)、また必要なコマンド特有パラメータの設定、といったユーザの操作を支援するものである。本発明の実施形態では、紙ドキュメントと携帯電話を対象選択に組み合わせ、動作およびパラメータを特定するために携帯電話を用いる。
紙ドキュメントのスナップショット上のターゲット選択のためには多様な手法を用いることができる。キーワード選択のために、ユーザはカメラ付き携帯電話を単語に対して照準合わせし、ボタンをクリックしてもよい。印刷された写真の領域を選択するために、ユーザはスタイラスを用いて、スナップショット上で円を描いてもよい。
本発明の一実施形態では、歪んだ低解像度のスナップショットを用いて精細なドキュメントコンテントを選択できる点が重要である。歪んで低解像度のスナップショットはデータベースに予め保存された高品質のデジタルバージョンに置き換えられ、ユーザに提供される。一方、本発明の一実施形態では、スナップショットが十分な品質であり、必要なければ、置き換え画像は提供されないようにしてもよい。
携帯電話で撮影された画像は通常は低解像で歪みがあり、一般的に低品質なので、ユーザが正確に選択することが難しかったり、システムが選択領域を判別することが難しかったりする。画像品質の向上や歪み補正アルゴリズムが知られているものの、これらのアルゴリズムは携帯電話に搭載するには負荷の高い計算アルゴリズムを通常使用しており、汎用化しづらい。本発明のアプローチはこの問題を克服しうるものである。
図10は、携帯電話を用いたドキュメントへのフォーカスの概要を示すものである。図10には3つのビューを示す。表示1010はクローズアップ、表示1020は遠距離からのフォーカスしたスナップショット、表示1030は歪みのある遠景スナップショットである。本発明の一形態は、携帯電話に搭載される低画像品質の撮像に適用可能である。多くの携帯電話は通常の風景やポートレートに適するような固定焦点長を用いており、このため表示1010に示すような紙ドキュメントへのクローズアップではうまく焦点が合わない。もしスナップショットを、ドキュメントが焦点距離に位置するような距離で撮影すると、文字が小さくなりすぎる。更にもしカメラの解像度が十分に高くないと、表示1020に示すように焦点合わせやズームインはあまり役に立たない。こうしたスナップショットでは、ユーザにとっては個々の単語を正確に選択することが難しい。ぼけ修正(de-blurring)や超解像のような画像改善手法を選択の前に適用することはできるが、これらの手順は計算負荷が高く、携帯電話のアプリケーションは現実的ではない。このため、本発明の実施形態においては、以下に示す原画による改善法を用いる。
図11は、本発明の一実施形態に関わり、携帯電話で閲覧されるドキュメントの改善されたスナップショットを示すものである。生のスナップショット1110とこれに対応した改善版1120および1130を図11に示す。生のスナップショット1110は低品質で歪んでいる。元のスナップショットを置換する高品質パッチが、改善版1120に示されている。図で示されるように、スナップショット1110はぼけており、斜めから全体を見ているので歪みがあり、ドキュメント中のテキストと画像の一部が切り取られるように、傾斜する文章の一部をキャプチャする。パッチ1120には、ぼけ、歪み、傾斜はもはや現れていない。改善版1130ではユーザは高解像パッチ1120の詳細をみるためにズームインすることができる。
図11にオリジナルによる改善法の概要を示し、生のスナップショット1110がクエリとしてサーバに送られ、高解像度のオリジナルドキュメントを検索する。オリジナルの高解像ドキュメント1120は生のスナップショットと置き換えるために用いられる。画像処理による方法と比較して、このアプローチは多様なズームレベルにおいてずっとクリアな表示を提供し、細かいドキュメント操作を行う上では役に立つ。なお、ここでオリジナルと呼ぶものは、ドキュメント作成アプリケーションで作成したドキュメントを印刷出力したときに並行して保存されたイメージデータ(テキスト等のアノテーション情報を含むあるいは含まない、ページ記述言語型のデータや画像データ)、あるいは、印刷出力イメージで表示された状態のドキュメントエディタ用データ形式のデータであってもよい。言い換えると、画素密度が高いイメージデータであっても、ベクトルデータのように拡大に応じて描画が行われるため、解像度が劣化しないデータも含む。
高品質で高解像度のドキュメントのコピーはユーザがプリントやスキャンを行うときにサーバに提供することができる。したがって、本発明の形態におけるドキュメントの高品質コピーはデータサーバで入手可能である。一旦スナップショットが携帯電話から送られると、サーバはその特徴点を抽出し、対応する高品質のコピーを検索する。スナップショットと高解像度コピーとの間のマッチする特徴点のペアから、スナップショットの座標系から、高解像、すなわち通常は高品質のコピーの座標系へと変換する変形マトリクスが得られる。そして、この変形マトリクスは生のスナップショットにマッチするパッチの検索に用いることができる。パッチおよび変形マトリクスは、パッチと関連付けられたメタデータ(例えば、テキスト、アイコン、あるいはデジタルページ座標系の境界ボックス)とともに、ユーザインターフェースを向上させるためにモバイルクライアントに送り返される。
図12は、本発明の一実施形態に関わるオリジナルによる改善法のフローチャートである。この図は、図11に示されるオリジナルによる改善のステップに応じた方法を示す。この方法は1200から開始する。1201でドキュメントの一領域の生のスナップショットをカメラ付き携帯電話で撮影する。1202で、生のスナップショットがサーバに対して、この生のスナップショットに対応する高品質版データを検索するクエリとして送られる。サーバには、携帯電話を通じて視認されるドキュメントの高品質デジタルイメージを含むデータベースを備えている。生のスナップショットに対応した高品質デジタルイメージがサーバ上にあってもよいし、他のサーバ上のデータへのリンクが保存され、リンクを通じてサーバもしくは携帯電話が高品質デジタルイメージを取得してもよい。1203で、携帯電話はサーバからスナップショットの高品質版データを取得する。1204で、携帯電話は、携帯電話で撮影した低解像度で歪んだ生のスナップショットを、サーバから受信した高品質版の対応するデータを用いて置き換えて表示する。1205は、ユーザは高品質版のデータを用いて操作を行うことができる。例えば、該操作としては、画像表示領域の変更、拡大縮小、タップや手書きによる丸付けといった、対象のコンテントに対するコマンドを検証したり確認したりする操作が挙げられる。1206では、この方法は終了する。
図13は、本発明の一実施形態に関わる、紙、携帯電話、デジタルドキュメント間の座標変換に関する概略を説明するものである。この図では、1ページの紙1310の座標系、画像や、同じページの紙を撮影したスナップショット1320を表示する携帯電話のスクリーン、データベース中に保存されたこのページの紙の高解像度版のデジタルコピー1330、携帯電話のスクリーン上でのこのページの改善された画像1340を示す。ソースパッチ1315がこのページの紙1310の上に示されている。このソースパッチ1315は携帯電話で撮影され、スナップショット1320として示される歪んだ領域に対応する。撮影されたスナップショットには、ユーザによって前もって選択操作のために付加された丸1325が含まれている。適合したパッチ1315、境界ボックス1335そして丸1325が、オリジナルの高解像度デジタルコピー1330中に示されている。改善されたインターフェース1340が、ボックス1335中の適合したパッチを用いることにより得られる。オリジナルのスナップショット1320は歪んでおり、このためにソースパッチ1315として示される実際のスナップショットの領域は、実際のドキュメント上で表示されるときには長方形ではない。しかし、ソースパッチ1315全体にわたって決定される境界ボックスは長方形であり、この長方形のボックス1335に対応する画像が表示領域1340中でユーザに対して提示されるものとなる。さらに、前もって付加された丸は歪んだスナップショット1320の表示上で入力されたので、改善されたインターフェース1340中で、この丸1325もまた変換されてしまっているので、正確さが必要なら、選択をやり直すようにしてもよい。
本発明の一実施形態では、高解像パッチへの自動的な表示領域変更やズーミング、画像歪み処理、テキスト選択処理やサーバから受信したメタデータの利用といった以下で説明する機能を備えても良い。
サーバから得られた高解像度のパッチによって生の低品質のスナップショットよりは改善が得られるものの、パッチ中で細かい選択をするとき、フィードバックを確認したり選択の修正を行ううえで、ユーザはスナップショットに対して表示領域の変更や拡大縮小する必要がまだあるかもしれない。この作業を緩和するために、パッチを受信したときに、クライアント(携帯電話)はスクリーン中で先に選択したコマンドの対象物を自動的に中心に表示し、例えば携帯電話のディスプレイの表示領域の50%が対象物の境界ボックスを占めるようにズームしてもよい。ユーザはこの後で手動によるパン、ズームの作業を行うことができ、選択部分を更新し、確定することができる。図1Aで、表示106は自動的に表示領域移動と拡大縮小の操作を行った結果を示している。
高機能なカメラ付き携帯を用いれば、ユーザは適当な焦点距離で指令対象の鮮明なスナップショットを撮影することができるかもしれない。しかし、スナップショット中の領域の選択は依然として困難が伴う。これは、回転、撮影方向による歪みといった画像の変形が領域の選択を困難にするためである。図10の表示1030中に示すように、紙上の長方形は携帯電話のスクリーン上では回転した台形のように見える。通常の携帯電話の座標系における領域選択ウィジェットは、紙の座標系での意図する矩形領域に正確にフィットすることができない。
画像歪みに対応するための対策として、ユーザはその形状の4つの角をタップし、選択領域の多角形を定義するようにすることもできる。しかし、この方法ではユーザ自身の頭の中で携帯電話の座標系を紙の座標系に変換することを強いることになり、ユーザにとっては視覚的な負荷を増やすことになるかもしれない。照明条件もまた撮影画像の品質に影響する。例えば、携帯電話を対象となる紙ドキュメントの近くに持ってくると対象となる紙ドキュメント上に影を落としてしまう。
さらに、画像処理を新たなスナップショットに適用することは可能であるが、多様な変形を補償できるように画像処理を一般化するのは困難である。このため、本発明の一実施形態においては、オリジナルを用いた改善アプローチを利用している。オリジナルによる改善アプローチは図12のフローチャート中に要約されており、サーバはスナップショットとオリジナルページとの間の変換マトリックスを求めるために、スナップショットを用いて検索を行う。変換マトリクスは画像の歪みを補正するために用いられる。そしてユーザは補正されたスナップショットの中で既知の選択ウィジェットを適用することができる。このアプローチはコンピュータ処理としても効率的である。
テキスト選択に関しては、キーワード検索といったいくつかのアプリケーションは紙上の選択した単語のテキストを必要とするが、スナップショットの品質は光学的文字認識(OCR)用に十分に高い必要はない。さらに、いくつかの数学記号や外国の文字はOCRのパッケージに含まれていない場合もある。この問題に対し、サーバはスナップ中に含まれるトークンを得るための検索をすることもできる。もしデータサーバ中のドキュメントがテキスト形式の場合、各語のテキスト中の位置および境界ボックスはすでに抽出され保存されており、サーバからは直接これらの位置情報を返すことができる。あるいは、サーバは最初に高品質コピーに対してOCRを実行しておいてもよい、
テキスト情報は、サーバから得られるメタデータの一種に過ぎない。他のメタデータとしては、ホットスポットの定義、ドキュメントの要素に関する境界や種類(例えば、図、表やパラグラフ)、といったクライアントインターフェースを改善できるものがある。このタイプのメタデータを用いると、ユーザは、例えばURLを開く、紙ドキュメント中の図をコピーする、などへの、ポイントアンドクリック操作を利用することができる。
図14は、本発明の一実施形態に関わる、オリジナルによる改善方法で利用するための変換マトリクスを形成する方法のフローチャートである。この方法は1400から開始され、1401で、おそらく携帯電話であるクライアントからの生のスナップショットがサーバで受信される。1402でスナップショットから固有の特徴点が抽出される。こうした特徴点は様々な解析法により抽出することができる。1403で、抽出された特徴点に基づいて、サーバはスナップショットの高品質版のデータをデータベースから検索する。1404で、スナップショットの特徴点と対応する高品質パッチの特徴点に基づいて、サーバは携帯電話で撮影されたスナップショットの特徴点を、サーバに保存された対応するデジタルコピー上の対応する点に変換するための変換マトリックスを得る。1405で、サーバは高品質パッチを携帯電話に送信する。あるいは、高品質パッチおよび変換マトリクスの両方が携帯電話に送信されてもよい。1406で、携帯電話は引き続く処理のためにこの変換マトリクスを利用する。1407で方法は終了する。
図15は、本発明の一実施形態に関わる、オリジナルコンテントを得るための、携帯電話で撮影されたスナップショットの変換マトリクスを用いた結果を記述するものである。携帯電話で撮影されたスナップショットとデータベース中のオリジナルのデジタル版のページとの間の変換を構築する方法がテストされた。実際のパッチのスナップショットとそれにマッチするデジタルページ間の変換マトリクスを計算するコンピュータプログラムが用意された。図15で示されるように、得られたマトリクスは対応するデジタルページ中にスナップショットを高精度に貼り付けることができる。携帯電話で撮影されたドキュメントのスナップショット1510が左に示され、整合したパッチ1527を含むデジタルページ1520がスナップショットの右側に示されている。内部にある四角形1525が歪んだスナップショット1510の領域に対応して表示されている。スナップショット1525の歪んだ領域に対応する、整合したパッチ1527における境界ボックスが示される。整合したパッチ1527のスナップショット1525への適合は、変換マトリクスを用いて行われる。なお、当業者には自明であるように、完全な変換を行う必要はなく、ユーザは必要に応じて最初の選択を変更することができる。
なお、他の方法として、図9のステップ911で示した選択の更新をユーザにより行うこともできる。特に、携帯電話上でスタイラスや指を用いないで、紙ドキュメント上でユーザが電話を動かすことでコンテントを選択することもできる(ここでは電話ジェスチャと呼ぶ)。言い換えると、ユーザはコマンドシステムを制御するために電話ジェスチャを利用することができる。ユーザにより利用可能なジェスチャの例としては、後で説明するように、領域選択、丸付け、横線、下線、交差線、点、始点終点指定といった指示がある。
図16Aは、本発明の一次実施形態に関わる、リアルタイムで携帯端末−紙間操作を行う、スウィープモードについての概要を示すものである。特に、この図は動作検出技術を画像認識技術と組み合わせて、ドキュメントのスキャンをリアルタイムに実現することを示すものである。ドキュメントの認識を行うことは、動作検出を行うよりも難しく、CPUの負荷も高い。このため、ドキュメント認識がリアルタイムに完了できないときでも、動作検出はリアルタイムで行うようにしてもよい。本発明の実施形態によれば、カメラで撮影される2つの画像認識動作間のデジタルパッチを予測するために画像ベースの動作検出技術を用いても良い。また、デバイスは連続して紙に関連付けれた動的なコンテンツを閲覧でき、電話の動きに基づくジェスチャを利用できるようにしてもよい。このようにすることで、本発明のこの態様は、より精細な粒度での連続的な携帯端末−紙間の操作をマーカーがなく言語依存性のない紙ドキュメントに対して行える特徴をもったデバイスを提供することができる。あるいは、画像ベースではない動作検出を採用することもできる。例えば、非画像ベースの動作検出技術としては、加速度計を利用することができる。
図16Aに戻ると、ステップ1601でユーザは携帯電話のスクリーン上の十字カーソルをドキュメント内の初期位置に合わせる。ステップ1602で、ユーザは初期位置を携帯電話に入力するために電話上のボタンを押し、スウィープモードにスイッチする。ステップ1603で、本実施形態のシステムは、現在のカメラの画像を認識し、合致する高解像度のデジタルパッチを提示する。ステップ1604で、コンピュータマウスを動かすときのように、ユーザは携帯電話を他の位置に向けて移動する。この移動の間、システムは継続的にカメラと紙との相対的な移動を検出し、デジタルパッチを更新する。取得済みのデジタルパッチのサイズが表示領域よりも大きい場合には、パッチ中で使用する領域を移動に応じて変更し表示させてもよい。こうした検出は認識処理よりもずっとCPUの処理が少ない。ステップ1605では、携帯電話の移動に応じて選択されたドキュメント領域がユーザに提示される。
図16B、図16Cは、電話ジェスチャの例を示しており、ユーザがスウィープモードでコンテントの選択を行うときに用いられるものである。特に、図16B で示す領域選択操作方法1610は、対象となるコンテントに渡ってユーザが引いた直線の両端が、所望の選択領域に渡る矩形の対向する2つの頂点を定める。言い換えると、得られる矩形中のすべてのコンテントが選択される。丸囲みの方法1611は、ユーザが選択するコンテントの周囲に線を描く。マージンバーによる方法612は、ユーザがテキストコンテントの範囲を示す線を描き、その線の範囲に存在する行中のテキストが選択される。ユーザは、図16Cに示される方法1613〜1615のように、コンテントに対する、下線、交差線、点によっても選択を行うことができる。最後に、ユーザは、1616に示すように、対象となるテキストコンテントの始点終点に線を描くようにしてもよい。当業者であれば、上述のコンテント選択ジェスチャが限定されるものではなく、他の類似するものも利用できることがわかるであろう。したがって、本発明は開示されたジェスチャに限定されるものではない。
図17は、本発明の一実施形態に関わり、スウィープモードで携帯端末−紙間操作とほぼ同時に高解像度のドキュメントを提供する方法に関するフローチャートである。このプロセスは1700から開始される。1701で、携帯電話システムはユーザが指定した初期位置の入力を受信する。1702で、システムは現在のカメラ画像を識別し、これにマッチする高解像度のデジタルパッチを携帯電話のスクリーンに表示し、ユーザに提供する。1703で、携帯電話システムはユーザからのスウィープモードへ変更するボタンの入力を受信する。1704で、システムはユーザが携帯電話を移動して他の位置へと移動する時の入力を受信する。このスウィープ動作はマウスを移動させるような動きである。1705で、システムは連続的な動作を検出し、デジタルパッチを更新する。1706で、システムは周期的に現在のカメラ画像と識別し、認識されたカメラ画像に基づいて動作検出を再較正する。1707でこの方法は終了する。
図17においては、完全な画像認識工程がステップ1702およびステップ1705中で行われる。データ処理負荷の大きい完全な画像認識工程と異なり、それが行われていない間は、画像は初期条件である初期画像の情報と携帯電話の動作とに応じて導かれる。一実施形態では、1705で、動作検出に加えて、携帯電話を動かして撮影された画像の、低次元の特徴記述ベクトルがサーバに送られる。当業者に自明なように、低次元の特徴ベクトルは必須というわけではない。例えば、ユーザがページをめくったときに、画像ベースの動作検出によっても、このページを変えたイベントを検出することができる。しかしながら、非画像ベースの動作検出(たとえば、加速度計)によっても、該低次元の特徴記述子を利用することができる。
本発明の一実施形態においては、サーバは2つの情報を使って携帯電話の位置と高品質パッチとの整合をとる。一つ目は初期位置に対する携帯電話の相対位置であり、2つ目は移動中の携帯電話で撮影されるその時点の画像に関する画像データである。あるいは、2つの画像認識処理の間の区間で携帯電話からサーバに送信される画像データは低品質のサイズの小さいデータとし、高品質画像から認識された初期画像と携帯電話の移動状態から導かれる予想画像とを比較し、その時点の低品質画像が予測画像と異なると判断される場合には、予測画像の表示を中止するようにする。そして、もしユーザが、例えば携帯電話を保持したまま、ドキュメントのページをめくったとすると、その2ページ目にあたる低品質の画像データによって、サーバはそれが動作と一致しないことを知ることになり、その画像は変更される。このとき、システムは画像データをさらに伝送および処理する、他の画像認識処理を行っても良い。例えば、サーバによる画像認識を支援するためにサーバに対し、画像記述ベクトルを携帯電話から伝送する場合、動作検出を定期的にリセットするために送信される画像記述ベクトルは、高次元でより多くの情報を含むが、携帯電話の移動に伴って連続的に伝送される画像記述ベクトルはそれよりは小さい次元で大きくない画像データを含むものとする。なお、この画像記述子は受信された画像に基づいてサーバ側で検出されてもよく、その場合にも画像データのサイズ(例えば圧縮率、解像度、画像範囲など)を上述のように変化させてもよい。
本発明の一実施形態に関わるプロトタイプについて、認識用のマークが付加されていないドキュメントを対象とするテストでは高い認識率が得られた。例えば、2006年マルチメディア博覧国際会議(International Conference on multimedia expo)予稿集の1000ページを用い、このシステムのテストを行った。各ページは306×396の画像領域に分割され、キーポイントと特徴ベクトルを抽出するためのトレーニング画像としてシステムに入力された。これらのページの画像は、各ページごとに0.18〜2倍の間での拡大縮小と0°〜360°の間の回転をランダムに施すことで3000枚のテスト画像、すなわち各ページごとに3枚の画像が生成された。3000枚のテスト画像はシステムに入力された。本発明の実施形態に基づいて実現されたシステムにおけるページの認識率は、入力画像に対して99.9%であった。
さらに、この方法は局所的な特徴を用いているので、ドキュメントに付加された注釈はほとんどパフォーマンスに影響しない。
このように本発明の一実施形態は、紙とカメラ付き携帯端末のインターフェースを用い、トークンおよび点(ドット)レベルでの操作を可能とし、言語依存性のないフレームワークを提供する。このフレームワークはカメラ付き携帯端末での単語のウェブ検索の実現、カメラ付き携帯端末での紙ドキュメント中の単語の電子辞書の実現、あるいはカメラ付き携帯を用いた紙ドキュメント中へのトークンおよび点レベルでのマルチメディアアノテーションを支援する。このフレームワークはさらに、カメラ付き携帯を用いた紙ドキュメント中のコンテントのコピーペーストの実現、カメラ付き携帯を用いて印刷された写真の一部を用いた写真コラージュの作成、あるいは、カメラ付き携帯を用いた印刷されたプレゼンテーション用の配布資料の動的なコンテントの再生にも応用することができる。
なお、本発明に関わるシステムは、必ずしもカメラ、ディスプレイ、処理部が一体となったカメラ付き携帯端末である必要はない。処理部が十分な記憶情報をローカルに保持する記憶部と一体であれば、通信機能も必ずしも必要ではないし、サーバとの通信を行う場合には移動体通信やWiFiのいずれかを利用する方が利便性は向上するが、有線通信により実現できることも当業者には自明であろう。ただし、無線通信を備えるカメラ付き携帯端末をクライアントとし、これにサーバを組み合わせることで、処理の負荷分散と、利用できる装置が限られた環境下で、紙および携帯端末を用いたこれまでのシステムよりも高度な処理が可能になることもこれまでの説明から明らかであろう。
図18は、本発明の実施形態に関わるコンピュータ/サーバーシステム1800の実現例を例示したものである。このシステム1800は、コンピュータ/サーバプラットフォーム1801、周辺装置1802とネットワークリソース1803を含んで構成される。
コンピュータプラットフォーム1801は、情報をコンピュータプラットフォーム1801内の多様なモジュールとの間で通信するためのデータバス1804あるいは他の通信機構を有している。そして、プロセッサ(CPU)1805は、情報処理や他の計算および制御処理を行うために、バス1804と接続されている。コンピュータプラットフォーム1801ではさらに、多様な情報やプロセッサ1805で処理される命令を記憶する、ランダムアクセスメモリ(RAM)や他の動的記憶装置のような揮発性記憶領域(揮発性メモリ)1806がバス1804に接続されている。揮発性記憶領域1806はプロセッサ1805の処理において一時的な変数や中間情報を記憶するために用いられてもよい。コンピュータプラットフォーム1801は、統計情報や、基本入出力システム(BIOS)のような、プロセッサ1805の命令や、様々なシステムのパラメータを記憶するために、バス1804に接続されたリードオンリーメモリ(ROM)や他の静的記憶装置を備えても良い。磁気ディスク、光ディスク、固体フラッシュメモリデバイスなどの不揮発性記憶領域1808が提供され、情報および指示を記憶するためにバス1804に接続されてもよい。
コンピュータプラットフォーム1801には、システム管理者あるいはユーザに情報を提示するために、CRT、プラズマディスプレイ、ELディスプレイあるいは液晶ディスプレイなどのディスプレイ1809が、バス1804を介して接続されている。入力装置(キーボード)1810はアルファベットおよび他のキーを備えており、プロセッサ1805との通信や指示のためにバス1804に接続されている。他のユーザ用入力装置としては、方向に関する情報を通信し、ディスプレイ1809上でのカーソルの動きを制御するマウス、トラックボールあるいはカーソル方向キーのようなカーソル制御装置1811がある。この入力装置は通常2軸での自由度をもっており、第1の軸(例えばx)および第2の軸(例えばy)を持つことで平面上での位置をそのデバイスで特定できることとなる。
外部記憶装置1812を、拡張あるいは取り外し可能な記憶容量をコンピュータプラットフォーム1801に提供するために、バス1804を介してコンピュータプラットフォーム1801に接続してもよい。コンピュータシステム1800の一例で、外付けのリムーバブルメモリ(外部記憶装置1812)は他のコンピュータシステムとのデータ交換を容易にするために、使用されてもよい。
本発明は、ここに記述された技術を実現するためのコンピュータシステム1800の使い方に関連するものである。実施形態として、コンピュータプラットフォーム1801のような機械上に、本発明に関するシステムを搭載する。本発明の一形態としては、ここで記載された技術を、揮発性メモリ1806中の1以上の命令による1以上の処理をプロセッサ1805に処理させることで実現させる。こうした命令は不揮発性記憶領域1808のような他のコンピュータ読取可能な媒体から、揮発性メモリ1806に読み出してもよい。揮発性メモリ1806中に保持された一連の命令をプロセッサ1805に実行させることで、ここに述べた処理ステップを実現させる。他の形態としては、ハードウェアの電子回路を、発明を実現するソフトウェアと、一部置き換え、あるいは、組み合わせてもよい。なお、本発明は特定のスペックを有するハードウェアやソフトウェアの組み合わせに限定されるものではない。
ここで、コンピュータ可読媒体とは、プロセッサ1805が実行するための命令を提供するために用いられるあらゆる媒体を指す。コンピュータ可読媒体は機械読取可能媒体の一例であり、ここで述べた、いかなる方法もしくは技術を実現するための命令をも保持することができるものである。このような媒体は多様な形態をとり、不揮発性媒体、揮発性媒体、そして通信媒体といったものに限られない。不揮発性媒体としては、例えば、記憶装置(不揮発性記憶領域1808)のような、光、磁気ディスクが含まれる。揮発性媒体としては、例えば揮発性記憶装置(揮発性記憶領域)1806のような動的メモリを含む。通信媒体は、データバス1804のような配線を含む同軸ケーブル、銅線、光ファイバーなどであってよい。通信媒体は、電磁波や赤外光データ通信のような、音波や光を利用したものも含む。
コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、ハードディスク、磁気テープあるいは他の磁気媒体、CD-ROMあるいは他の光記憶媒体、パンチカード、紙テープなどの穴の配置を用いる媒体、RAM、ROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリーカードなどのメモリチップやカートリッジ、通信波、あるいはコンピュータが読むことができる他の媒体、といった通常のコンピュータ可読媒体を含む。
さまざまな形態のコンピュータ可読媒体が、プロセッサ1805で処理される1以上の処理を実行させるために用いることができる。例えば、その命令が最初はリモートコンピュータから磁気ディスクに保持されてもよい。あるいは、リモートコンピュータがその命令を動的記憶装置にロードして、モデムを用いた電話回線を通じてこれを送信してもよい。コンピュータシステム1800に接続されたモデムは、電話回線を通じてデータを受け取るともに、データを赤外線信号に変換して赤外線として伝送するようにしてもよい。赤外線検出装置は、赤外線信号に重畳されたデータを受信し、適当な回路がそのデータをデータバス1804に伝送する。バス1804は揮発性記憶領域1806にデータを伝送し、プロセッサ1805がその命令を参照して実行できる状態におく。揮発メモリ(揮発性記憶領域1806)から受け取った命令はプロセッサ1805により処理される前あるいは後に不揮発性記憶装置(不揮発性記憶領域)1808に保存されるようにしてもよい。命令は、周知のネットワークデータ通信プロトコルのいずれかで、インターネットを介してコンピュータプラットフォーム1801にダウンロードするようにしてもよい。
コンピュータプラットフォーム1801は、データバス1804に結合したネットワークインターフェースカード1813のような通信インターフェースも有する。通信インターフェース1813はローカルエリアネットワーク1815に接続されたネットワークリンク1814に接続し、双方向のデータ通信が可能とされる。例えば、通信インターフェース1813はISDNカードやモデムと一体化され、対応する電話回線でのデータ通信を行わせるようにしてもよい。他の例としては、LANや802.11a, 802.11b, 802.11g として周知の無線LANリンクに適合したデータ通信接続を行うローカルエリアネットワークインターフェースカード(LAN NIC)としたり、Bluetooth(登録商標)を用いて実現したりしてもよい。いずれの場合でも、通信インターフェース1813は、様々なタイプの情報を表すデジタルデータ列を伝送する、電気、電磁、あるいは光信号を送受信する。
ネットワークリンク1814は、1以上の他のネットワークとのデータ通信を通常可能とする。例えば、ネットワークリンク1814は、ローカルエリアネットワーク1815を介して、ホストコンピュータ1816やネットワークストレージやサーバ1822への接続を提供する。加えて、あるいは代替として、ネットワークリンク1814は、インターネットのような、広域あるいはグローバルネットワーク1818にゲートウェイ/ファイアウォール1817を通じて接続する。そしてコンピュータプラットフォーム1801はインターネット1818上のどこかにある、例えばリモートネットワークストレージ/サーバといった、ネットワークリソースにもアクセスすることが可能となる。一方、コンピュータプラットフォーム1801は、ローカルエリアネットワーク1815および/またはインターネット1818上のいかなる位置にいるクライアントからもアクセスできるようにしてもよい。ネットワーククライアント1820および1821は、プラットフォーム1801と同様のコンピュータプラットフォームに基づいて構築しても良い。
ローカルエリアネットワーク1815とインターネット1818は、共に電気、電磁、あるいは光信号を、データ信号列を伝播するために用いる。なお、デジタルデータをコンピュータプラットフォーム1801に入出させる、多様なネットワークを通じた信号、ネットワークリンク1814上や、通信インターフェース1813を介した信号は情報伝送の伝送波の例示的な形態である。
コンピュータプラットフォーム1801は、メッセージの送信、プログラムコードを含むデータの受信を、インターネット1818およびLAN1815を含む多様なネットワーク、ネットワークリンク1814および通信インターフェース1813を介して行うことができる。インターネットの例では、コンピュータプラットフォーム1801はネットワークサーバとして機能し、クライアント1820および/または1821で実行されるアプリケーションプログラム用の、リクエストコードやデータを、インターネット1818、ゲートウェイ/ファイアウォール1817、ローカルエリアネットワーク1815および通信インターフェース1813を介して伝送する。同様に、他のネットワークリソースからコードを受信してもよい。
受信したコードはプロセッサ1805によって受信時に実行されるか、不揮発性記憶領域1808あるいは揮発性記憶領域1806に保存する、あるいは他の不揮発性記憶領域に記憶して、後で実行してもよい。このようにしてコンピュータ1801は伝送波からアプリケーションコードを取得できる。
図19は、本発明の一実施形態のコンピュータプラットフォームの機能ブロック図の例を示すものである。携帯端末1900は、CPU1905、揮発性メモリ1906と不揮発性メモリ1908がデータバス1904を介して接続されたコンピュータプラットフォーム1901を含む。コンピュータプラットフォーム1901は、EPROMやファームウェア記憶部1907、アンテナ1914を通じてネットワークと通信を行う送受信器1913を備えても良い。コンピュータプラットフォームは、ディスプレイ1909、タッチパネルセンサ1910、カメラ1911およびモーションセンサ1912が含まれる周辺機器と接続される。モーションセンサは加速度計と組み合わされたGPSのような位置検出器であってもよい。モーションセンサはカメラの位置を決定するために、初期位置からの移動方向と速度を計測するものであってもよい。あるいは、携帯電話の移動時のカメラの地点を直接決定するものであってもよい。
カメラ1911は、ドキュメントのスナップショットを撮影し、画像処理のためにそれをCPUに送信し、撮影したスナップショットの固有の特徴を表す画像記述ベクトルを求めるために用いることができる。モーションセンサ1912は携帯端末を紙に沿って動かしたときの初期位置に対するカメラの現在の位置を求めるために用いることができる。ディスプレイ1909は撮影した画像を閲覧するとともに、携帯端末がサーバと通信して受信した高品質の画像を閲覧するために用いられる。スナップショットはアンテナ1914を通じて送信され、高品質画像は同様にアンテナを通じて受信される。タッチパネル1910はスナップショットや高品質画像に注釈付けするために用いることができ、注釈のデータはサーバに返される。不揮発性記憶部(メモリ)1908およびファームウェア記憶部1907は、各画像の特徴記述ベクトルの計算や変換マトリックスのプログラムを保存するために用いても良い。
最後に、ここに記載した方法や技法は、特定の装置固有に成り立つものでなく、いかなる適当な構成要素の組み合わせによっても実現できることを理解されたい。また、この開示の示唆に従って、多様な一般用途の装置を用いてもよい。またここで開示した手法を実現する専用の装置を作成することも有効である。この発明は特定の例示に基づいて記述されているが、それらは全て限定的にするためではなく、例示するためのものである。当業者であれば、ハードウェア、ソフトウェアおよびファームウェアの多くの異なる組み合わせが本発明を実施するために適当であることは理解されうることであろう。例えば、ソフトウェアの記述は、アセンブラ, C/C++, pearl, shell, PHP, Java(登録商標)といった多様なプログラムあるいはスクリプト言語を用いて実現できる。
さらに、当業者であればここに開示された本発明の明細書および実施例に基づいて、本発明の他の改良もまた明らかであろう。実施形態に記述された多様な観点や構成は、このコンピュータにより実現される画像検索システムを単独もしくは組み合わることにより利用することができる。明細書と実施例は例示的なものと解釈され、真の発明の示す範囲と思想はクレームにより示されるものである。
701 データサーバ
702 コマンドシステム
703 アプリケーション
704 プリンタ
705 スキャナ
706 携帯端末
707 紙ドキュメント

Claims (12)

  1. 複数のドキュメントのデジタルコピーを記憶する記憶手段と、
    任意のドキュメントのスナップショットを撮影するカメラと、
    前記カメラで撮影される前記スナップショットを表示するディスプレイと、
    前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも1つの前記複数のドキュメントを検索する検索手段と、
    前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を判別する位置判別手段と、
    検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信する受信手段と、
    判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作する操作手段と、
    を備えることを特徴とするドキュメント操作システム。
  2. 前記判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示する表示制御手段を備えることを特徴とする請求項1記載のドキュメント操作システム。
  3. 前記表示制御手段は、撮影された前記スナップショットを、対応する前記デジタルコピーの情報を用いる画像に置き換えて前記ディスプレイに表示することを特徴とする請求項2記載のドキュメント操作システム。
  4. 前記表示制御手段は、前記ディスプレイに、撮影される前記スナップショット中の任意の位置を指定するための指定部を表示するとともに、前記指定部により指定された前記スナップショット中の位置に対応する前記検索されたドキュメントのデジタルコピー中の位置の画像を前記ディスプレイに表示し、
    前記操作手段は、前記指定部により指定された位置にある前記ドキュメントのデジタルコピー中の情報を操作するための指令手段を更に備えることを特徴とする請求項2記載のドキュメント操作システム。
  5. 前記指令手段により指定される操作が前記デジタルコピーの編集操作であって、前記ディスプレイ上での編集操作の処理結果が前記記憶手段に記憶されることを特徴とする請求項4記載のドキュメント操作システム。
  6. 前記検索手段による検索に先立ち、前記複数のドキュメントに関する局所画像特徴が予め抽出されるとともに前記記憶手段に記憶されていることを特徴とする請求項1記載のドキュメント操作システム。
  7. 前記スナップショットあるいは前記スナップショットの局所画像特徴に関する情報を前記検索手段に送信する送信手段を更に備え、
    前記記憶手段、前記検索手段および前記位置判別手段が、前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段とは、ネットワークを介して分離して構成されていることを特徴とする請求項1記載のドキュメント操作システム。
  8. 前記カメラ、前記ディスプレイ、前記受信手段、前記操作手段および前記送信手段が一体化された携帯端末であることを特徴とする請求項7記載のドキュメント操作システム。
  9. 前記表示制御手段は、前記デジタルコピーの情報を用いた前記判別された位置に対応する前記ドキュメントの画像の前記ディスプレイへのカメラによる表示の後、前記カメラによる前記任意のドキュメントの撮影位置の変化を検出するともに、前記撮影位置の変化に応じて、前記判別された位置に対応する前記ドキュメントの画像を、前記デジタルコピーの情報を用いて前記ディスプレイに表示する請求項2記載のドキュメント操作システム。
  10. 前記局所画像特徴が、局所不変画像特徴であることを特徴とする請求項1〜9のいずれか一項に記載のドキュメント操作システム。
  11. 複数のドキュメントのデジタルコピーを記憶手段に記憶し、
    任意のドキュメントのスナップショットをカメラで撮影し、
    前記カメラで撮影される前記スナップショットをディスプレイに表示し、
    前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも1つの前記複数のドキュメントを検索手段により検索し、
    前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、
    検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、
    判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を操作手段で操作する、
    ことを特徴とするドキュメント操作方法。
  12. コンピュータに、
    複数のドキュメントのデジタルコピーを記憶手段に記憶し、
    カメラで撮影した任意のドキュメントのスナップショットを取得し、
    前記カメラで撮影される前記スナップショットをディスプレイに表示し、
    前記スナップショットの局所画像特徴と類似する局所画像特徴を有する少なくとも1つの前記複数のドキュメントを検索手段により検索し、
    前記スナップショットで撮影された前記任意のドキュメント中の位置に対応する、前記検索されたドキュメント中の位置を位置判別手段により判別し、
    検索された前記ドキュメントのデジタルコピーを前記記憶手段から受信手段で受信し、
    ユーザからの入力を受け付ける操作手段で受け付けて、判別された位置に対応する前記ドキュメントのデジタルコピー中の情報を前期操作手段により受け付けた操作を実行させるためのプログラム。
JP2009231212A 2009-06-26 2009-10-05 ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム Pending JP2011008752A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/459,175 US20100331041A1 (en) 2009-06-26 2009-06-26 System and method for language-independent manipulations of digital copies of documents through a camera phone

Publications (1)

Publication Number Publication Date
JP2011008752A true JP2011008752A (ja) 2011-01-13

Family

ID=43381318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009231212A Pending JP2011008752A (ja) 2009-06-26 2009-10-05 ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム

Country Status (2)

Country Link
US (1) US20100331041A1 (ja)
JP (1) JP2011008752A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101403634B1 (ko) 2010-06-16 2014-06-05 퀄컴 인코포레이티드 Rf 레인징-원조 로컬 움직임 감지
JP2015032934A (ja) * 2013-08-01 2015-02-16 ソニー株式会社 制御装置、制御方法、送信端末、送信方法、受信端末、受信方法および制御システム
JP2016174290A (ja) * 2015-03-17 2016-09-29 大日本印刷株式会社 サーバ装置、動画データ再生方法、及びプログラム
CN106534805A (zh) * 2016-12-15 2017-03-22 江西江铃集团车桥齿轮有限责任公司 一种自动拍照测量螺旋锥齿轮啮合接触印迹的设备
JP2017120503A (ja) * 2015-12-28 2017-07-06 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2017228963A (ja) * 2016-06-23 2017-12-28 京セラドキュメントソリューションズ株式会社 情報処理装置、情報処理システム、及び情報処理方法
US10142512B2 (en) 2015-01-27 2018-11-27 Dai Nippon Printing Co., Ltd. Server device, image printing device, and moving-image data delivery system
JP2019522848A (ja) * 2016-06-08 2019-08-15 華為技術有限公司Huawei Technologies Co.,Ltd. 処理方法及び端末
KR20220093794A (ko) * 2020-12-28 2022-07-05 주식회사 포스코아이씨티 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306825A1 (en) 2009-05-27 2010-12-02 Lucid Ventures, Inc. System and method for facilitating user interaction with a simulated object associated with a physical location
KR101164353B1 (ko) * 2009-10-23 2012-07-09 삼성전자주식회사 미디어 콘텐츠 열람 및 관련 기능 실행 방법과 장치
US20120011142A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Feedback to improve object recognition
US20120306930A1 (en) * 2011-06-05 2012-12-06 Apple Inc. Techniques for zooming in and out with dynamic content
JP5845686B2 (ja) * 2011-07-26 2016-01-20 ソニー株式会社 情報処理装置、フレーズ出力方法及びプログラム
US8666169B2 (en) * 2011-10-24 2014-03-04 Hewlett-Packard Development Company, L.P. Feature descriptors
CN102682091A (zh) * 2012-04-25 2012-09-19 腾讯科技(深圳)有限公司 基于云服务的视觉搜索方法和***
US20130293580A1 (en) 2012-05-01 2013-11-07 Zambala Lllp System and method for selecting targets in an augmented reality environment
US9671941B1 (en) * 2013-05-09 2017-06-06 Amazon Technologies, Inc. Graphical behaviors for recognition interfaces
CN104978133A (zh) 2014-04-04 2015-10-14 阿里巴巴集团控股有限公司 一种用于智能终端的截屏方法和装置
WO2015191010A1 (en) * 2014-06-12 2015-12-17 Sun Vasan Searching for a map using an input image as a search query
US9535883B2 (en) 2014-10-24 2017-01-03 Dropbox, Inc. Modifying native document comments in a preview
JP6101247B2 (ja) * 2014-12-26 2017-03-22 京セラドキュメントソリューションズ株式会社 携帯端末及び画像結合プログラム
US10410398B2 (en) * 2015-02-20 2019-09-10 Qualcomm Incorporated Systems and methods for reducing memory bandwidth using low quality tiles
US9852337B1 (en) 2015-09-30 2017-12-26 Open Text Corporation Method and system for assessing similarity of documents
US10635786B2 (en) * 2017-03-15 2020-04-28 Macau University Of Science And Technology Methods and apparatus for encrypting multimedia information
RU2668717C1 (ru) * 2017-12-13 2018-10-02 Общество с ограниченной ответственностью "Аби Продакшн" Генерация разметки изображений документов для обучающей выборки
US11039196B2 (en) 2018-09-27 2021-06-15 Hisense Visual Technology Co., Ltd. Method and device for displaying a screen shot
CN109388461A (zh) * 2018-09-27 2019-02-26 青岛海信电器股份有限公司 屏幕画面截图中识别物体的显示方法、装置及显示终端
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
CN114730482A (zh) * 2019-11-27 2022-07-08 Oppo广东移动通信有限公司 关联多人增强现实***中的设备坐标系
US20230215207A1 (en) * 2021-11-29 2023-07-06 RedShred LLC Geographic management of document content
US11593132B1 (en) * 2022-04-27 2023-02-28 Ironclad, Inc. Snapshot capture of computing device user interfaces

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003115039A (ja) * 2001-07-11 2003-04-18 Ricoh Co Ltd 文書ファイリング装置、文書ファイリング方法、プログラムおよび記憶媒体
EP1766552A2 (en) * 2004-06-23 2007-03-28 Strider Labs, Inc. System and method for 3d object recognition using range and intensity
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8385589B2 (en) * 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US7450960B2 (en) * 2004-10-07 2008-11-11 Chen Alexander C System, method and mobile unit to sense objects or text and retrieve related information
JP4556705B2 (ja) * 2005-02-28 2010-10-06 富士ゼロックス株式会社 2次元座標同定装置、画像形成装置及び2次元座標同定方法
KR20070034767A (ko) * 2005-09-26 2007-03-29 엘지전자 주식회사 다중 표시영역을 갖는 이동통신 단말기 및 이를 이용한 디스플레이 간의 데이터 표시 방법

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101403634B1 (ko) 2010-06-16 2014-06-05 퀄컴 인코포레이티드 Rf 레인징-원조 로컬 움직임 감지
JP2015032934A (ja) * 2013-08-01 2015-02-16 ソニー株式会社 制御装置、制御方法、送信端末、送信方法、受信端末、受信方法および制御システム
US10142512B2 (en) 2015-01-27 2018-11-27 Dai Nippon Printing Co., Ltd. Server device, image printing device, and moving-image data delivery system
JP2016174290A (ja) * 2015-03-17 2016-09-29 大日本印刷株式会社 サーバ装置、動画データ再生方法、及びプログラム
CN107085699B (zh) * 2015-12-28 2021-06-15 佳能株式会社 信息处理设备、信息处理设备的控制方法和存储介质
JP2017120503A (ja) * 2015-12-28 2017-07-06 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
CN107085699A (zh) * 2015-12-28 2017-08-22 佳能株式会社 信息处理设备、信息处理设备的控制方法和存储介质
JP2019522848A (ja) * 2016-06-08 2019-08-15 華為技術有限公司Huawei Technologies Co.,Ltd. 処理方法及び端末
US10838601B2 (en) 2016-06-08 2020-11-17 Huawei Technologies Co., Ltd. Processing method and terminal
JP2017228963A (ja) * 2016-06-23 2017-12-28 京セラドキュメントソリューションズ株式会社 情報処理装置、情報処理システム、及び情報処理方法
CN106534805B (zh) * 2016-12-15 2019-06-21 江西江铃集团车桥齿轮有限责任公司 一种自动拍照测量螺旋锥齿轮啮合接触印迹的设备
CN106534805A (zh) * 2016-12-15 2017-03-22 江西江铃集团车桥齿轮有限责任公司 一种自动拍照测量螺旋锥齿轮啮合接触印迹的设备
KR20220093794A (ko) * 2020-12-28 2022-07-05 주식회사 포스코아이씨티 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템
KR102557912B1 (ko) * 2020-12-28 2023-07-19 주식회사 포스코디엑스 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템

Also Published As

Publication number Publication date
US20100331041A1 (en) 2010-12-30

Similar Documents

Publication Publication Date Title
JP2011008752A (ja) ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
JP5181888B2 (ja) グラフィカルユーザインターフェースを生成する方法及びシステム
US10073859B2 (en) System and methods for creation and use of a mixed media environment
JP5095535B2 (ja) 画像処理方法、画像処理システム、画像処理装置及びプログラム
US7669148B2 (en) System and methods for portable device for mixed media system
US7991778B2 (en) Triggering actions with captured input in a mixed media environment
US8195659B2 (en) Integration and use of mixed media documents
CN101297318B (zh) 用于混合介质文档***的数据组织和访问
Erol et al. HOTPAPER: multimedia interaction with paper using mobile phones
US8154644B2 (en) System and method for manipulation of a digital image
EP1783681A1 (en) Retrieval system and retrieval method
KR100979457B1 (ko) 혼합 미디어 환경에서의 이미지 정합 방법 및 시스템
JP2010072842A (ja) 画像処理装置および画像処理方法
JP2012221148A (ja) 画像処理方法、及び、画像処理システム
JP4897795B2 (ja) 処理装置、インデックステーブル作成方法及びコンピュータプログラム
US8532431B2 (en) Image search apparatus, image search method, and storage medium for matching images with search conditions using image feature amounts
Liu et al. Embedded media markers: marks on paper that signify associated media
JP2009506392A (ja) 電子書類にホットスポットを埋め込む方法、コンピュータプログラム及びシステム
JP2008040753A (ja) 画像処理装置、方法、プログラムおよび記録媒体
JP2008217660A (ja) 検索方法、および装置
Uchiyama et al. On-line document registering and retrieving system for AR annotation overlay
JP2006053622A (ja) 文書リンク情報取得システム
JP7231529B2 (ja) 情報端末装置、サーバ及びプログラム
JP2007011762A (ja) 領域抽出装置及び領域抽出方法
JP2021149208A (ja) 情報処理装置及びプログラム