JP6262708B2 - 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 - Google Patents

深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 Download PDF

Info

Publication number
JP6262708B2
JP6262708B2 JP2015255694A JP2015255694A JP6262708B2 JP 6262708 B2 JP6262708 B2 JP 6262708B2 JP 2015255694 A JP2015255694 A JP 2015255694A JP 2015255694 A JP2015255694 A JP 2015255694A JP 6262708 B2 JP6262708 B2 JP 6262708B2
Authority
JP
Japan
Prior art keywords
file
metadata
text
native
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015255694A
Other languages
English (en)
Other versions
JP2016129021A (ja
Inventor
カーク テク,
カーク テク,
Original Assignee
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/588,194 external-priority patent/US9798724B2/en
Priority claimed from US14/588,165 external-priority patent/US9864750B2/en
Application filed by コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド, コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド filed Critical コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Publication of JP2016129021A publication Critical patent/JP2016129021A/ja
Application granted granted Critical
Publication of JP6262708B2 publication Critical patent/JP6262708B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法に関する。
ネイティブ電子ファイルによってユーザーは様々なオプションや機能によりドキュメントを容易に編集することができる。ネイティブファイルは異なるファイル形式に変換されることがある(つまり非ネイティブファイル)。しかし一般に、ドキュメントの編集性は非ネイティブ形式では低下する。具体的に、ネイティブファイルの使用時においては、ユーザーは文書処理ドキュメントの表における個別のセルを編集しうる。しかし、ユーザーがファイルの非ネイティブ形式を使用している場合は、ユーザーが行える表の編集が限られる。例えば、ユーザーは個別のセルを編集できず、ユーザーができることは、単にページ上で表全体を配置しうる場所を選択しうることに限定されうる。
電子ドキュメントの管理は組織の大小を問わず難しい業務である。ユーザーがオリジナルを見つけられない場合、紛失した電子ドキュメントの捜索やドキュメントを再び作成するのに用いられる労力に何千時間や何百万ドルが無駄に消費される。場合によっては、ユーザーはドキュメントの物理的コピーまたはその他の非ネイティブコピーを保有することもあるが、ネットワークドライブやデータリポジトリ、例えばエンタープライズコンテンツ管理(ECM)リポジトリのどこかに記憶されている可能性があるオリジナル電子ドキュメントを見つけることができない。ユーザーはドキュメントを改めて作成しうるが、高品質で改めて作成しても、改めて作成されたドキュメントはオリジナル電子ドキュメントと同じにはならないことがある。
非ネイティブファイルの例として物理的なドキュメントが挙げられる。物理的なドキュメントは家庭、オフィス、及びその他の環境というあらゆる場においてみられる。多くの物理的ドキュメントは電子ドキュメントからのプリントアウトであり、例えば、演算装置のワード処理アプリケーションからのものが挙げられる。ユーザーは演算装置を用いて物理的ドキュメントを編集したいと思うことがある。これを行うには、ユーザーはまず物理的ドキュメントをスキャナーや複合機を用いてスキャンした上で、スキャンされたドキュメントのオブジェクトを認識しうるソフトウェアによってラスタライズされた画像を分析して処理する。例えば、テキスト認識や変換等の一般的な処理は光学式文字認識(OCR)ソフトウェアを用いて行うことができる。しかし、非テキストオブジェクトは認識できず、編集もできない。画像内のテキストも適切に定義されていない場合は、テキストの認識も編集もできないことがある。いずれの場合も、オブジェクトは一般にビットマップオブジェクトとして扱われるか、オリジナルのスキャンからベクター形式に変換され、そのネイティブ形式においては認識することができない。
ユーザーは電子ドキュメントを見つけるため、ドキュメントテキストからの文字列をネットワークドライブやデータリポジトリにおいて検索することがある。例えば、ユーザーはハードコピーをスキャンして光学式文字認識(OCR)ソフトウェアを用いて比較を行うことによって、ネットワークドライブやECリポジトリにおいて一致するものを検出することがある。しかし、単純なテキストの検索では必ずしも十分とはいえない。例えばドキュメントにテキストがない場合やテキストが適切に定義されていない場合は、OCRソフトウェアが非テキストオブジェクトを認識できないため、ドキュメントの検索をすることができない。その他の例として、ドキュメントはごく一般的な言葉しか含まない場合、返ってくる検索の結果が多すぎることがある。
本発明の一の側面によれば、コンピュータープロセッサーを備えたコンピューティングシステムにより、非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化する方法であって、前記コンピュータープロセッサーにより、ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化するステップと、前記コンピュータープロセッサーにより、前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成するステップと、前記コンピュータープロセッサーにより、前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成するステップと、を備える。
本発明の一の側面によれば、非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化するシステムであって、コンピュータープロセッサーと、前記コンピュータープロセッサー上で実行されるオブジェクト化部と、を備え、前記オブジェクト化部は、ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化し、前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成し、前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成する。
本発明の一の側面によれば、非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化する指示を含むコンピュータープログラムであって、コンピューターに、ネイティブファイル形式においてオブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化させ、前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成させ、前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成させる。
一般に、ある側面によれば、本発明は以下に関する、コンピュータープロセッサーを備えたコンピューティングシステムによりドキュメントを検出する方法であって、前記コンピュータープロセッサーにより、非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信するステップと、前記コンピュータープロセッサーにより、オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定するステップと、前記コンピュータープロセッサーにより、前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成するステップと、前記コンピュータープロセッサーにより、前記生成された非テキストオブジェクトメタデータを用いて、データリポジトリに記憶され、それぞれがオブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータを含む複数の電子ドキュメントを検索するステップと、前記コンピュータープロセッサーにより、前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較するステップと、前記コンピュータープロセッサーにより、前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供するステップと、を備える。
一般に、ある側面によれば、本発明は以下に関する、ドキュメントを検出するシステムであって、オブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータとを含む電子ドキュメントを複数記憶するデータリポジトリと、コンピュータープロセッサーと、前記コンピュータープロセッサー上で実行されるドキュメントロケーターと、を備え、前記ドキュメントロケーターは、非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信し、オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定し、前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成し、前記生成された非テキストオブジェクトメタデータを用いて、前記データリポジトリに記憶される複数の電子ドキュメントを検索し、前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較し、前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供する。
一般に、ある側面によれば、本発明は以下に関する、ドキュメントを検出する指示を含むコンピュータープログラムであって、コンピューターに、非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信させ、オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定させ、前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成させ、前記生成された非テキストオブジェクトメタデータを用いて、データリポジトリに記憶され、それぞれがオブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータを含む複数の電子ドキュメントを検索させ、前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較させ、前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供させる。
本発明のその他の特徴は以下の明細書の記載及び添付されるクレームにおいて明らかにされる。
図1は本発明の第一実施形態におけるシステムの概略図を示す。
図2は本発明の第一実施形態におけるフローチャートを図示する。
図3は本発明の第一実施形態における実施例を図示する。
図4は本発明の第二実施形態におけるシステムの概略図を示す。
図5は本発明の第二実施形態におけるフローチャートを図示する。
図6は本発明の第二実施形態における実施例を図示する。
図7は本発明の一以上の実施形態のコンピューティングシステムを図示する。
以下に、添付の図面を参照して、本発明の具体的な実施形態について、詳細に説明する。整合性を図るため、各図面における類似の要素には同様の参照符号が付加される。
以下の本発明の実施形態の詳細な説明においては、本発明のより深い理解を提供するため、具体的な詳細について説明がされる。しかし、これらの具体的な詳細によらなくても本発明を実施しうることは当業者にとっては明らかであろう。その他の場面において、不必要に複雑な説明を回避するため、周知の要素については詳細な説明が省略されている。
(第一実施形態)
一般的に、本発明の第一実施形態は非ネイティブドキュメントオブジェクトをそのネイティブ形式で認識するオブジェクト化(オブジェクトの定義)を行うための方法及びシステムを提供する。例えば、ユーザーが非ネイティブファイル(例えば、電子ドキュメントをプリントアウトしたハードコピー)にアクセスしうるが、ネイティブファイルにアクセスできない場合、ユーザーがドキュメントを編集したり検索したりする能力は限られる。本発明の第一実施形態によれば、ユーザーはネイティブファイル形式において編集することができ、深い検索性を有する新たな電子ドキュメントを作成することができる。深い検索性によって、オペレーティングシステム及び/またはドキュメントプログラムにおける既存の及び/または内蔵されるテキスト検索機能によって、画像、チャート、表、グラフ、写真、等のオブジェクトと共通する連続する記述を用いた検索を実行することができる。
第一の実施形態によれば、オブジェクトを含む非ネイティブファイルが取得される。オブジェクトのタグを決定し、オブジェクト及びタグでオブジェクト化されたオブジェクトを作成することによってオブジェクトはオブジェクト化される。オブジェクト化されたオブジェクトに基づいてメタデータを生成し、オブジェクト化されたオブジェクトとメタデータとを含む新たなネイティブファイルを生成しうる。新たなネイティブファイルにおけるオブジェクト化されたオブジェクトはそのネイティブ形式によって編集することができ、メタデータを検索することができる。
よって、本発明の第一実施形態において非ネイティブファイル(例えばプリントアウトされたハードコピーの形式やPDF(Portable Document Format)形式の電子ドキュメント、またはプリントアウトされたハードコピーのスキャン画像)から始まり、深い検索性を有するメタデータを含むオブジェクト化された非テキストコンテンツの新たな電子ファイルで終わる、ドキュメントワークフローを提供する。例えば、第一の実施形態によれば、ユーザーは電子ドキュメントのハードコピー形式をスキャンし、スキャンされたコンテンツをオブジェクト化し、認識されたオブジェクトに基づいて検索可能なメタデータを生成しうる。メタデータは認識されたオブジェクトに関連付けられるか周辺に配置される検索可能で隠されたテキストとして埋め込まれる連続する記述でありうる。その結果、ユーザーは新たな目的で再利用可能な及び/または自然な言語による問い合わせによって深い検索が可能な電子ドキュメントを取得することができる。第一実施形態においては、「非テキストコンテンツ」は定型化されたテキスト、グラフィカルなテキスト、その他の従来のOCRソフトウェアによって認識不可能だったテキストを含みうる。つまり、「非テキストコンテンツ」はコンテンツをテキストと非テキストとで分類した場合にテキストコンテンツとして認識されないコンテンツでありうる。
図1は本発明の第一実施形態によるシステムの例を示す簡略化された概略図を示す。具体的に、図1は演算装置(105)、ネイティブファイル(110)、コンテンツ(115)、オブジェクト(120)、タグ(125)、非ネイティブファイル(130)、非ネイティブコンテンツ(135)、非ネイティブオブジェクト(140)、スキャナー(145)、オブジェクト化部(150)、及びサーバー(155)を含むシステム(100)である。第一実施形態においては、演算装置(105)として電子ファイルを作成しうるあらゆる装置を用いることが可能であり、例えばデスクトップコンピューター、ラップトップコンピューター、スマートフォン、タブレット等を含む。演算装置(105)は様々な構成要素を含み、例えば、プロセッサー、メモリー、入力装置等が挙げられる(いずれも図示略)。第一実施形態においては、演算装置(105)はユーザーが電子ドキュメントを作成するのに用いうる様々なプログラムやアプリケーション(図示略)を実行しうる。これらのプログラムやアプリケーションとして、例えば、ワード処理プログラム、スライドショープログラム、スプレッドシートアプリケーション、ノートをとるアプリケーション等が挙げられる。
これらの電子ドキュメントは情報を記憶、共有、保管、及び検索するために演算装置のユーザーに用いられうる。これらのドキュメントは一時的にまたは永久的にファイルに記憶される。様々な異なるファイル形式が存在する。各ファイル形式はファイルのコンテンツがどのように符号化されるかを定義する。つまり、ファイル形式に基づいてファイルのコンテンツが読み出されて表示される。主にドキュメントを作成及び/または編集するために用いられるファイル形式もあれば、主に他の目的、例えば他者とのドキュメントの共有のために用いられるファイル形式もある。ファイル形式の具体例として、例えばオフィスオープンXML(OOXML)、PDF等が挙げられる。
ユーザーは例えばOOXMLドキュメントからPDFドキュメントへの変換等、あるファイル形式のドキュメントを他のドキュメント形式に変換する場合がある。また、ユーザーは電子ドキュメントの物理的コピーを印刷することがある。このような作業により、ネイティブファイル形式の様々な特徴が失われることがある。一般に、これらの特徴はユーザーには見えないが、ファイルの編集性を低下させる等、重大な結果をもたらすことがある。しかし、以下に詳細に説明するが、本発明の第一実施形態によってこのような結果を抑えることができる。
引き続き図1を参照して、第一実施形態によれば、ネイティブファイル(110)はドキュメントが作成されたオリジナルのファイル形式の電子ドキュメントである。ネイティブファイル(110)はあらゆるファイル形式であることができ、既知のものや今後開発されるものでもありうる。ネイティブファイル(110)は演算装置(105)またはその他の適切な場所に記憶される。第一実施形態によれば、ネイティブファイル(110)は非ネイティブファイル(130)等の他の形式のファイルに変換しうる。ネイティブファイル(110)は、ネイティブファイルを作成するのに用いられたプログラムを用いてネイティブファイルをユーザーが参照した際に表示されるコンテンツ(115)等のデータを含む。
第一実施形態においては、コンテンツ(115)は電子ドキュメントにみられるあらゆるコンテンツを含み、例えば、テキスト、写真、表、チャート、画像、数式等を含むが、これらに限定されない。第一実施形態において、コンテンツ(115)は一以上のオブジェクト(120)を含む。オブジェクト(120)はテキスト、グラフィック画像またはその他の表示することができるコンテンツ(115)の一部でありうる。グラフィック画像はビットマップ画像やベクターグラフィック画像を含みうる。例えば、グラフィック画像は定型化されたテキスト(例えば、ワードアート)、チャート、写真画像またはその他のグラフィックでありうる。テキストオブジェクトにはバナライゼーション、単語分割及びOCR技術等の従来技術が適用されるため、以下の説明において、コンテンツがテキストオブジェクトと判断された場合についての詳細な説明は省略される。
第一実施形態によれば、非テキストオブジェクトと判断されたオブジェクト(120)は一以上の隠されたタグ(125)によって区切られる。具体的には、タグ(125)によって一以上のオブジェクトの構成情報が設定され、情報には書式情報や種類情報が含まれる。構成情報の少なくとも一部はネイティブファイルのネイティブアプリケーションにより検索しうるテキストデータでありうる。書式はオブジェクトがどのように表示されるかを示す。書式には色、大きさ、影付き、画像ファイル名(例えばpuppy.jpg)及びその他のこのような情報が含まれる。種類はオブジェクトが何かを示す。例えば、種類は特定の種類のチャート、ワードアート、画像、表、クリップアート、箇条書きの一覧、及びその他の種類のものを含みうる。
引き続きタグ(125)について、例えば円グラフオブジェクト(つまり、円グラフに対応するオブジェクト)は円グラフを特定するための隠されたスタートタグと隠されたエンドタグによってファイルの残りの部分から区切られうる。円グラフオブジェクト内には円グラフを構成する各扇形の大きさと扇形の色を定義するタグが存在しうる。棒グラフオブジェクトは棒グラフを特定するための隠されたスタートタグと隠されたエンドタグによってオリジナルのファイルの残りの部分から区切られうる。テキストは、フォントサイズ、フォント名、フォント色、及びテキストのその他の特性を指定するタグによって区切られうる。当業者は本明細書の開示から、様々なタグが存在しうるものであり、本発明は上記例示に限定されるものではないことを理解するであろう。
第一実施形態によれば、非ネイティブファイル(130)はネイティブファイル(110)とファイルの形式が異なるネイティブファイル(110)のコピーである。非ネイティブファイル(130)はあらゆるファイル形式でありうる。例えば、第一実施形態においては、非ネイティブファイル(130)はネイティブファイル(110)のプリントアウトもしくは物理的コピーであり、またはプリントアウトのスキャンされた画像である。第一実施形態においては、非ネイティブファイル(130)はネイティブファイル(110)と同じかほぼ同じにみえる。しかし、ネイティブファイル(110)が印刷され、または非ネイティブファイル(130)に変換された際にタグ(125)等の一部のデータが失われた可能性がある。図1において、非ネイティブファイル(130)とネイティブファイル(110)とが点線によって結ばれ、これはこれらが「同じ」ファイルであることを示す。
第一実施形態においては、非ネイティブコンテンツ(135)はコンテンツ(115)の非ネイティブコピーである。コンテンツ(115)と同様に非ネイティブコンテンツ(135)はあらゆるコンテンツを含み、写真、表、チャート、画像等を含むがこれらに限定されない。第一実施形態においては、非ネイティブコンテンツ(135)は一以上の非ネイティブオブジェクト(140)を含む。非ネイティブオブジェクト(140)はオブジェクト(120)の非ネイティブコピーである。重要なこととして、変換処理及び/または印刷によってタグが失われるため、非ネイティブオブジェクト(140)はタグと関連付けられていない。
第一実施形態においては、スキャナー(145)はスキャン機能を有するスキャナーまたはその他の装置であり、例えば複合機(MFP)が挙げられる。スキャナー(145)は様々な異なる構成要素を含み、プロセッサー、メモリー、ディスプレイ、入力装置等が含まれるがこれらに限定されない。スキャナー(145)はスキャナー及び/またはMFPに共通して関連するあらゆる機能を含み、ドキュメントを光学的にスキャンし、ドキュメントをデジタル画像に変換すること、光学式文字認識(OCR)を実行すること、画像をラスタライズすること等が含まれる。スキャナー(145)は様々な異なるファイル形式及び/または解像度のドキュメントを生成しうる。スキャナー(145)は有線及び/または無線の接続を介してサーバー(155)に通信可能に接続される。スキャナー(145)は任意に他の装置に接続することができ、例えばパーソナルコンピューター、タブレット、スマートフォン等が挙げられる。
第一実施形態においては、スキャナー(145)はオブジェクト化部(150)を実行する機能を有する。オブジェクト化部(150)は非ネイティブファイル内のオブジェクトをオブジェクト化するためのプログラムまたはモジュールである。図1に示すように、オブジェクト化部(150)はスキャナー(145)及び/またはサーバー(155)の上で実行される。具体的には、オブジェクト化部(150)はオブジェクトのタグを決定し、オブジェクト化されたオブジェクトを生成し、メタデータを生成し、新たなネイティブファイルを生成する機能を有する。
第一実施形態においては、オブジェクト化部(150)はあらゆる適切な態様でオブジェクトのタグを判断する機能を有する。オブジェクトはスキャナー、サーバー、またはその他の演算装置を介してオブジェクト化部(150)に提供され、または既知のまたは今後開発されるあらゆる方法でオブジェクト化部(150)により検出されうる。いったんオブジェクトが認識されると、オブジェクト化部(150)はオブジェクトを分析し、オブジェクトがネイティブファイルの一部だったときにオブジェクトに当初関連付けられたまたは関連付けられた可能性があるタグを判断する。第一実施形態においては、オブジェクト化部(150)は様々なテンプレートとオブジェクトとを比較しうる。各テンプレートは一以上のタグを示す。一致または一致に近い状態がみられた場合、テンプレートと関連付けられたタグはそのオブジェクトをオブジェクト化するのに用いられうる。第一実施形態においては、オブジェクト化部(150)はどのタグがオブジェクトと関連付けられるかについてもっとも有力と思われる推測をすることができる。またはオブジェクト化部(150)はその他の適切な方法を用いて、どのタグがオブジェクトと関連付けられるかを判断しうる。
第一実施形態においては、オブジェクト化部(150)はオブジェクト化されたオブジェクトを作成する機能を有する。オブジェクト化されたオブジェクトはネイティブファイルのオリジナルのオブジェクトと似ているか、同じである。オブジェクト化されたオブジェクトは電子ファイルの適切な位置にタグを挿入することによって作成しうる。または、オブジェクト化されたオブジェクトはその他の既知のまたは今後開発されるオブジェクト認識方法またはパターンマッチング方法によって作成することができる。
第一実施形態においては、オブジェクト化部(150)はオブジェクト化されたオブジェクトに関するメタデータを作成する機能を有する。オブジェクト化されたオブジェクトのメタデータにおいてネイティブファイル形式でどのようにオブジェクトが構成されるかが記述されうる。例えば、オブジェクトの種類、オブジェクトの書式、オブジェクトの位置及び/またはオブジェクトのその他の特徴及び/または記述を含みうる。例えば、各オブジェクトの位置はオブジェクトが位置するページのページ番号及びページのxy座標によって指定しうる。第一実施形態においては、メタデータは表示の目的でオブジェクトをレンダリングするために用いられていない。つまり、メタデータは検索等の情報の目的のみのために用いられうる。第一実施形態においては、メタデータはその一部またはすべてがユーザーには隠されている。
第一実施形態においては、オブジェクト化部(150)は新たなネイティブファイルを生成する機能を有する。新しいネイティブファイルは既知のまたは今後開発されるあらゆる方法によって生成しうる。具体的には、新しいネイティブファイルはオブジェクト化されたオブジェクトを含む。新しいネイティブファイルは、ネイティブファイルが非ネイティブファイルに変換された際に失われた、オリジナルネイティブファイルの多くのまたはすべての特徴(例えばタグ)を有しうる。第一実施形態においては、サーバー(155)またはスキャナー(145)上で実行されるその他のソフトウェア等のその他の構成要素によって新たなネイティブファイルが生成されうる。その結果ユーザーは、オリジナルネイティブファイルを生成したプログラム(例えば、マイクロソフトオフィスプログラム)を用いて非テキストコンテンツを再度作成することなく、ドキュメント内の非テキストコンテンツを編集しうる。
第一実施形態においては、サーバー(155)はオブジェクト化部(150)を実現しうる、サーバー、ラック、デスクトップコンピューター、ラップトップコンピューター、またはその他の演算装置である。サーバー(155)は様々な異なる構成を有しうるものであり、本発明は図1に示される構成に限定されない。
図2は本発明の第一実施形態に基づくフローチャートを図示する。フローチャートの様々なステップは順番に示して説明されているが、当業者は一部またはすべてのステップが異なる順番で実行しうること及び一部またはすべてのステップが平行に実行しうることを理解しうるであろう。また、本発明の第一実施形態においては、下記に記載される一以上のステップが、省略され、繰り返され、及び/または異なる順番で実行されうる。さらに、本発明の範囲を逸脱することなく下記に記載されない追加のステップを実行しうる。よって、図2に記載される具体的なステップの構成は本発明の範囲を限定する方向で解釈されるべきではない。
ステップ200において、オブジェクトを含む非ネイティブファイルが取得される。第一実施形態においては、非ネイティブファイルは電子ドキュメントのプリントアウトまたは物理的コピーである。具体的には物理的コピーを有するユーザーはドキュメントのネイティブ電子オリジナル/コピーにアクセスすることができないかもしれないが、電子ドキュメントを手動で作り直すことなく自分のコンピューター上で当該ドキュメントを編集したいと思っている。第一実施形態においては、非ネイティブファイルはスキャナーから取得されうる。または、非ネイティブファイルはネイティブファイルとは異なるファイル形式の電子ファイルでありうる。第一実施形態においては、非ネイティブファイルはメモリー、データリポジトリ、またはその他の適切な情報源から取得しうる。
第一実施形態においては、ユーザーは推測されるネイティブファイル形式に関する入力を実行しうる。例えば、ユーザーが、物理的ドキュメントが「ワード処理プログラムA」によって当初作成されたと考える場合、ユーザーはその情報を追加の入力として提供しうる。この追加の入力によってステップ205においてどのタグがオブジェクトと関連付けられるべきかや、どのようなファイル形式を作成すべきかについて判断する際の補助となりうる。
ステップ205において、オブジェクトについてタグが決定される。タグはオブジェクトの少なくとも一部を定義し、あらゆる適切な方法によって決定しうる。第一実施形態においては、オブジェクトをテンプレートと比較することで、オブジェクトが既知のタグ付オブジェクトと似ているか判断しうる。または、最も有力な推測をするアルゴリズム、ユーザーからの入力またはその他の適切な方法に基づいてタグを決定する。
ステップ210において、オブジェクト化されたオブジェクト(例えばOOXMLオブジェクト)が作成される。オブジェクト化されたオブジェクトはオブジェクト及びオブジェクトの一以上のタグを含む。つまり、オブジェクト化されたオブジェクトはネイティブファイルにおけるオブジェクトの一部のまたは全部の再形成である。オブジェクト化されたオブジェクトによってユーザーは「単純な」オブジェクトよりも機能的にオブジェクト化されたオブジェクトを編集しうる。例えば、本発明を用いなければ、オブジェクトが円の場合、オブジェクトがスキャンされると、円はラスタライズされた画像として記憶され、ユーザーは、ページ上の位置の選択や簡単なサイズ変更等、基本的な編集機能しか用いることができない。オブジェクト化された円によって、ユーザーは円の色を編集し、線の濃さを調整し、パターンを追加する等のことが可能となる。
ステップ215において、メタデータが生成される。すべてのオブジェクト化されたコンテンツは既知の検索アルゴリズムによって分析され、オブジェクトの近傍にメタデータが追加される。当該メタデータは既知のまたは今後開発されるあらゆる方法によって生成しうる。当該メタデータはオブジェクト化されたオブジェクトに基づきうる。第一実施形態においては、メタデータはオブジェクトの例えば、オブジェクトの種類、サイズ、色、位置、形状等の各特徴を記述しうる。
ステップ220において、オブジェクト化されたオブジェクトとメタデータを含む新たなネイティブファイルが生成される。新しいネイティブファイルは既知のまたは今後開発されるあらゆる方法によって生成されうる。新しいネイティブファイルは非ネイティブファイルを用いて生成され、オブジェクト化されたオブジェクトのためにまたはこれを用いて決定されたタグ及びメタデータが付加された新しい電子ドキュメントである。有利な点として、オブジェクト化されたオブジェクトとこれに添付されるメタデータによって、新しいネイティブファイルを用いてユーザーはより多くの機能を用いることができ、例えば深い検索性やオブジェクト化されたオブジェクトの向上した編集性が挙げられる。
ステップ225において、新しいネイティブファイルが編集及び/または検索される。点線によって示されるように、ステップ225は任意であり、あらゆる演算装置を用いていつでも実行しうる。編集及び/または検索は既知のまたは今後開発されるあらゆる方法によって実行しうる。
図3は本発明の第一実施形態に基づく一例を示す。当該例示は説明のみを目的とするものであり、本発明の範囲を限定するものではない。具体的に、図3は紙ファイル(300)から深い検索性と向上した編集機能を有する電子ドキュメントへ変換する処理を図示する。まず、ユーザーは紙ファイル(300)を有する。紙ファイル(300)はページの中央に大きな黒い三角形が印刷された一枚の紙である。ユーザーは紙ファイル(300)を自分のコンピューター上で編集したいと考えるが、手動でファイルを作り直すのに時間を使うことを望まない。ユーザーは紙ファイル(300)が当初コンピューターを用いて作成された電子ドキュメントであったことを知っているが、ユーザーは電子コピーがどこにあるのかわからない。
そこで、ユーザーは紙ファイル(300)をスキャナー(305)に置き、ファイルをスキャンし、新たなネイティブファイル(310)を作成する。紙ファイル(300)をスキャンした後、スキャナー(305)はオブジェクトが存在することを検出する、つまり黒い三角形である。スキャナー(305)は選択されたネイティブファイル形式においてどのタグが黒い三角形と関連付けられるかを決定することで、黒い三角形をオブジェクト化する。タグは新しいネイティブファイル形式の表示(315)で確認しうる。具体的にはスキャナー(305)は<triangle:black>というタグは黒い三角形に関連付けられるべきと決定する。よって、<triangle:black>というタグは新しいネイティブファイル(310)に含まれる、しかしタグはユーザーには見えない。このタグによってユーザーは(アクセスすることができない)当初のネイティブファイルで黒い三角形が作成された時に存在したものと同じ特徴や機能によって新しいネイティブファイル(310)における黒い三角形を編集することができる。
また、スキャナー(305)はオブジェクト化されたコンテンツを用いて、オブジェクトに関するメタデータを生成する。具体的には、この具体例におけるメタデータはオブジェクトを以下のように記述する、三角形、黒、等辺。しかし、これらのキーワードは任意に定義することができ、これらのキーワードを変更または修正することによって、特定の種類のオブジェクトを見つけるためにユーザーが探すものをよりよく捉えることが可能となる。このようなキーワードがどのように定義され、認識されたオブジェクトと関連付けられるかに関する詳細についてはUS2014/0258258に記載され、参照することにより本明細書に組み込まれる。このメタデータは新しいネイティブファイル(310)に埋め込まれ、ユーザーには見えない。しかし、ユーザーはメタデータの用語を用いて新しいネイティブファイル(310)を検索しうる(一般に、見えないテキストは標準的なアプリ/OS検索ツールを用いて検出しうる)。よって、ユーザーがどこに新しいネイティブファイル(310)を保存したかわからない場合は、「等辺、黒、三角形」という用語を用いて自分のコンピューターのすべてのドキュメントに検索をかければ、新しいネイティブファイル(310)が検索結果に表れ、このような固有の検索用語によって筆頭の「検索ヒット」となる可能性が高い。
(第二実施形態)
一般に、本発明の第二実施形態はドキュメント検出に関する方法及びシステムを提供する。具体的には、本発明の第二実施形態によって、ユーザーは例えば、電子ドキュメントのスキャンされたハードコピー等の非ネイティブコピー内の非テキストオブジェクトに関する検索可能なメタデータを作成することによって、ドキュメントのコピーを用いてオリジナル電子ドキュメントを検出または見つけることが可能となる。第二実施形態によれば、例えば、ユーザーは検索可能なメタデータを電子ドキュメントと電子ドキュメントに由来するハードコピーとの間の用語の比較におけるテキストによるクエリーの一部として利用することができる。これによって、ユーザーがオリジナル電子ドキュメントを見つける可能性が上がり、引き続き編集、修正、印刷、保管等を行うことができる。本明細書において、物理的コピー、ハードコピー、紙コピー、プリントアウト及び物理的ファイルは同じ意味で用いられる。
第二実施形態においては、非テキストオブジェクトを含むドキュメントの物理的コピーのスキャンが受信される。非テキストオブジェクトについて一以上のタグが決定され、これらのタグに基づいてメタデータが生成される。続いて、非テキストオブジェクトメタデータを用いて電子ドキュメントを記憶するデータリポジトリが検索され、オリジナルドキュメントがみつけられる。任意に、メタデータに加えて、すでに存在する文字列を用いることができ、例えば、タイトル、見出し、または電子ドキュメントのその他のコンテンツが挙げられる。検出の際は、オリジナルドキュメントの場所がユーザーに提供される。
図4はデータリポジトリ(405)、電子ドキュメント(410)、オブジェクト(415)、タグ(420)、メタデータ(425)、物理的コピー(430)、非テキストオブジェクト(435)、スキャナー(440)、ドキュメントロケーター(445)、及び演算装置(450)を含むシステム(400)を図示する。第二実施形態において、データリポジトリ(405)はメモリー、ハードドライブ、データベース、ネットワークドライブ、及び/または一以上の装置に設けられる一以上の記憶装置である。データリポジトリ(405)はエンタープライズコンテンツ管理(ECM)システムの構成要素でありうる。データリポジトリ(405)はあらゆるサイズ、であることができ、あらゆる人数のユーザーがアクセスしうる。第二実施形態においては、データリポジトリは様々なレベルでユーザーの実行を許可しうる、つまり、データリポジトリに記憶されているすべてのファイルにフルアクセスが認められるユーザーもいれば、他のユーザーはアクセスしうるファイルが限定される。データリポジトリ(405)は電子ドキュメントを記憶する(410)。
第二実施形態において、電子ドキュメント(410)はデータリポジトリ(405)に記憶される電子ファイルである。電子ドキュメント(410)は情報の記憶、共有、保管、及び検索をする演算装置のユーザーに用いられる。このようなドキュメントは一時的または永久的にファイルに記憶される。様々な異なるファイル形式が存在する。各ファイル形式はファイルのコンテンツがどのように符号化されるかを定義する。つまり、ファイル形式に基づいてファイルのコンテンツは読み出され、表示される。主にドキュメントの作成及び/または編集に用いられるファイル形式があれば、他者とドキュメントを共有するため等、主にその他の様々な目的で用いられるファイル形式もある。ファイル形式の例として、例えばオフィスオープンXML(OOXML)、PDF等が挙げられる。
ユーザーはあるファイル形式のドキュメントを別のファイル形式のドキュメントに変換することがあり、例えばOOXMLドキュメントをPDFドキュメントに変換する。また、ユーザーは電子ドキュメントの物理的コピーを印刷しうる。これにより、ネイティブファイル形式の特徴が失われうる。一般にこのような特徴はユーザーには見えないが、これらは重大な結果をもたらしうる、例えばファイルの編集能力が低下したり、ファイルのコンテンツをその他の方法で変更したりする。電子ドキュメント(410)はオブジェクト(415)、タグ(420)、及びメタデータ(425)を含む。電子ドキュメント(410)はワード処理プログラム、ノートをとるプログラム、スプレッドシートプログラム、スライドショープログラム等、あらゆる適切なプログラムによって作成しうる。
第二実施形態において、オブジェクト(415)はテキスト、グラフィック画像、またはその他の表示可能なコンテンツでありうる。グラフィック画像はビットマップ画像やベクターグラフィック画像を含みうる。例えば、グラフィック画像は定型化されたテキスト(例えば、ワードアート)、チャート、写真画像、またはその他のグラフィックでありうる。
第二実施形態において、オブジェクト(415)は一以上の隠されたタグ(420)によって区切られる。具体的には、タグ(420)によって一以上のオブジェクトの構成情報が設定され、情報には書式情報や種類情報が含まれる。書式はオブジェクトがどのように表示されるかを示す。書式には色、大きさ、影付き、画像ファイル名(例えばpuppy.jpg)及びその他のこのような情報が含まれる。種類はオブジェクトが何かを示す。例えば、種類は特定の種類のチャート、ワードアート、テキスト、画像、表、クリップアート、箇条書きの一覧、及びその他の種類を含みうる。
引き続きタグ(420)について、例えば円グラフオブジェクト(つまり、円グラフに対応するオブジェクト)は円グラフを特定するための隠されたスタートタグと隠されたエンドタグによってファイルの残りの部分から区切られうる。円グラフオブジェクト内には円グラフを構成する各扇形の大きさと扇形の色を定義するタグが存在しうる。棒グラフオブジェクトは棒グラフを特定するための隠されたスタートタグと隠されたエンドタグによってオリジナルのファイルの残りの部分から区切られうる。テキストは、フォントサイズ、フォント名、フォント色、及びテキストのその他の特性を指定するタグによって区切られうる。当業者は本明細書の開示から、様々なタグが存在しうるものであり、本発明は上記例示に限定されるものではないことを理解するであろう。
第二実施形態において、メタデータ(425)は電子ドキュメント内のオブジェクトに関する電子ドキュメントに記憶されるデータである。メタデータ(425)は検索可能なテキスト形式でありうる。オブジェクトのメタデータ(425)はファイル形式においてオブジェクトがどのように構成されるかを記述しうる。例えば、オブジェクトの種類、オブジェクトの書式、オブジェクトの位置、及び/またはオブジェクトのその他の特徴及び/または説明を記述しうる。例えば、各オブジェクトの位置はオブジェクトが位置するページのページ番号及びページのxy座標によって設定しうる。第二実施形態においては、メタデータ(425)は表示の目的でオブジェクトをレンダリングするために用いられていない。つまり、メタデータは検索等の情報の目的のみのために用いられうる。検索は、既知のまたは今後開発される、あらゆるテキスト検索ツール、プログラム及び/または方法を用いて実行しうる。または、検索は専用の方法またはアプリケーションを用いて実行しうる。第二実施形態においては、メタデータの一部または全部がユーザーには隠されている(例えば、隠されたテキスト等)。第二実施形態においては、メタデータ(425)は任意のものであり、ソフトウェア開発者、ユーザー、ソフトウェア発行者、またはその他の適切なエンティティによって作成されたルールに基づいて定義しうる。例えば、青い正方形のメタデータはソフトウェア開発者により「青、正方形」と定義しうる。ユーザーが任意にどのようなメタデータが青い正方形に関連付けられるかを修正することができ、例えば、「会社ロゴ」という用語を追加しうる。
第二実施形態においては、物理的コピー(430)は電子ドキュメントの紙コピーである。物理的コピー(430)は既知のまたは今後開発されるあらゆる方法によって印刷することができ、演算装置上で対応する電子ドキュメントが表示される態様にできる限り近い形で印刷しうる。また、物理的コピー(430)は演算装置上で電子ドキュメントが表示される態様と大きく異なる点を有しうる。例えば、使用されるテキストフォントで印刷することができなかったり、ページの余白の調整が必要だったりする。物理的コピー(430)はオリジナル電子ドキュメントのあらゆるコンテンツを含み、第二実施形態においては非テキストオブジェクトを含む(435)。
第二実施形態においては、非テキストオブジェクト(435)は物理的コピー(430)のページに印刷される非テキストオブジェクトである。非テキストオブジェクト(435)はオブジェクト(415)に関する、上述したあらゆる種類のものでありうる。例えば、非テキストオブジェクト(435)は赤い円、青い三角形、写真等でありうる。非テキストオブジェクト(435)は構成要素としてテキストを含みうるが(例えば表における列)、非テキストオブジェクト(435)は単純なテキストではなく、追加の書式やその他の特徴が存在する。
第二実施形態においては、スキャナー(440)は複合機(MFP)等のスキャン機能を有するスキャナーまたはその他の装置である。スキャナー(440)は様々な異なる構成要素を有しうる、例えば、プロセッサー、メモリー、ディスプレイ、入力装置等が挙げられるがこれらに限定されない。スキャナー(440)はスキャナー及び/またはMFPに共通に関連するあらゆる機能を含み、ドキュメントを光学的にスキャンし、ドキュメントをデジタル画像に変換すること、光学式文字認識(OCR)を実行すること、画像をラスタライズすること等が含まれる。スキャナー(440)は様々な異なるファイル形式及び/または解像度のドキュメントを生成しうる。スキャナー(440)はインターネット等の有線及び/または無線の接続を介してデータリポジトリ(405)及び/または演算装置(450)に通信可能に接続される。
第二実施形態においては、スキャナー(440)はドキュメントロケーター(445)を実行する機能を有する。ドキュメントロケーター(445)はドキュメントを探すためのプログラムまたはモジュールである。図1に示すように、ドキュメントロケーター(445)はスキャナー(440)、演算装置(450)、及び/またはその他の適切な装置において実行されうる。具体的にはドキュメントロケーター(445)は以下の機能を有する、ドキュメントの物理的コピーのスキャンを受信し、オブジェクトのタグを決定し、メタデータを生成し、許可を決定し、電子ドキュメントを見つけ、電子ドキュメントをユーザーに提供する。
第二実施形態においては、ドキュメントロケーター(445)は既知のまたは今後開発されるあらゆる形式で、あらゆる解像度のドキュメントの物理的コピーのスキャンを受信する機能を有する。ドキュメントロケーター(445)はスキャナー自体または別の演算装置のスキャンを受信しうる。いったんスキャンが受信されると、ドキュメントロケーター(445)はオブジェクトのタグを決定する機能を有する。オブジェクトはスキャンされたドキュメント内において、スキャナーまたはその他の演算装置によって特定され、または既知のまたは今後開発されるあらゆる態様でドキュメントロケーター(445)によって特定されうる。いったんオブジェクトが特定されると、ドキュメントロケーター(445)はオブジェクトを分析し、オブジェクトが電子ファイルだった時にどのタグがオブジェクトに当初関連付けられたか、関連付けられた可能性があるかを決定する。第二実施形態においては、ドキュメントロケーター(445)は様々な種類のテンプレートをオブジェクトと比較しうる。各テンプレートは一以上のタグを示しうる。一致または一致に近いものがあれば、そのテンプレートに関連付けられたタグはオブジェクトのオブジェクト化に用いられうる。第二実施形態においては、ドキュメントロケーター(445)はどのタグがオブジェクトに関連付けられるべきか有力な推測を実行しうる。または、ドキュメントロケーター(445)はその他の適切な方法を用いてそのタグがどのオブジェクトに関連付けられるべきか判断しうる。
第二実施形態においては、ドキュメントロケーター(445)はメタデータを生成する機能を有する。メタデータは既知のまたは今後開発されるあらゆる方法によって生成しうる。具体的に、メタデータはドキュメントロケーター(445)がオブジェクトに関連付けられるべきと決定するタグに基づくものであり、メタデータはサイズ、大きさ、色、パターン、位置等、オブジェクトのあらゆる特徴を記述する。第二実施形態においては、既存の検索機能を用いて迅速にドキュメントの電子コピーを見つけるためにメタデータはテキスト形式である。
第二実施形態においては、ドキュメントロケーター(445)は電子ドキュメントを見つける機能を有する。電子ドキュメントは既知のまたは今後開発されるあらゆる方法によって見つけうる。例えば、テキストによる検索を用いて、電子ドキュメントを見つける。検索で用いられるテキストはオブジェクトに関するメタデータの一部またはすべてである。任意に、検索に用いられるテキストは電子ドキュメント内に存在する通常のテキストを含みうる。検索された電子ドキュメントがオブジェクトに関するメタデータを含めるように予め処理されたとすると、ドキュメントにまったくまたはほとんどテキストが含まれないとしても、このようなテキストによる検索によってある物理的コピーと一致する可能性がある電子ドキュメントの数々がもたらされうる。つまり、メタデータを検索用語として用いることによってドキュメントロケーター(445)はその他の数多くの異なるドキュメントに頻繁に登場するテキストの代わりに、電子ドキュメント内で見つけられるオブジェクト(例えばページ3の中央にみられる青、緑、赤を含む円グラフ)に基づいて効率的に電子ドキュメントを見つけることができる。
第二実施形態においては、ドキュメントロケーター(445)は許可状況を判断する機能を有する。許可状況によって電子ドキュメントを閲覧、修正及び/またはアクセスしうる者を管理する。ユーザーがドキュメントの紙コピーを有することは必ずしもユーザーがファイルの電子版にアクセスする権限を有することを意味しない。そこでドキュメントの電子コピーがどこにあるのかをドキュメントロケーター(445)がユーザーに知らせる前に、ドキュメントロケーター(445)によってユーザーの許可状況を判断し、ユーザーがそのファイルにアクセスすることが認められるかどうかを確実にする。第二実施形態においては、ドキュメントロケーター(445)はユーザーの許可状況を判断するために、ユーザーにログイン、パスワードの提供、または自分が何者かを示すことを求めうる。または、その他の適切な方法によって、ドキュメントロケーター(445)は許可状況を判断してチェックしうる。
第二実施形態においては、ドキュメントロケーター(445)はユーザーに見つけられた電子ドキュメントを提供する機能を有する。見つけられた電子ドキュメントは様々な方法でユーザーに提供されうる。第二実施形態において、見つけられた電子ドキュメントはユーザーに電子メールで送信しうる。または、ファイル名及び/または位置をスキャナー上に表示、印刷、またはユーザーに電子メールで送信等を実行しうる。本明細書の開示により、見つけられたドキュメントをユーザーに提供するには様々な方法があることを当業者は理解し、よって本発明は上述の例に限定されない。
第二実施形態において、演算装置(450)として、電子ファイルを作成することができるあらゆる装置を用いることができ、例えば、デスクトップコンピューター、ラップトップコンピューター、スマートフォン、タブレット等が挙げられる。演算装置(450)は様々な異なる構成要素を有し、例えば、図示しないプロセッサー、メモリー、入力装置等が挙げられる。第二実施形態においては、演算装置(450)において、ユーザーが電子ドキュメントを作成するのに用いうる様々なプログラム/アプリケーション(図示しない)を実行しうる。これらのプログラム/アプリケーションとして、例えば、ワード処理プログラム、スライドショープログラム、スプレッドシートアプリケーション、ノートをとるアプリケーション等が挙げられる。第二実施形態においては、演算装置(450)はデータリポジトリ(405)に記憶される電子ドキュメントを記憶、修正、またはアクセスしうる。また、上述のように、演算装置(450)はドキュメントロケーター(445)を実行しうる。
図5は本発明の第二実施形態に基づくフローチャートを示す。フローチャートの様々なステップは順番に示して説明されているが、当業者は一部またはすべてのステップが異なる順番で実行しうること及び一部またはすべてのステップが平行に実行しうることを理解しうるであろう。また、本発明の第二実施形態においては、下記に記載される一以上のステップが、省略され、繰り返され、及び/または異なる順番で実行されうる。さらに、本発明の範囲を逸脱することなく下記に記載されない追加のステップを実行しうる。よって、図5に記載される具体的なステップの構成は本発明の範囲を限定する方向で解釈されるべきではない。
ステップ500において、データリポジトリにおける電子ドキュメントは、電子ドキュメント内のオブジェクトに関するメタデータを含むように処理される。点線によって示されるように、電子ドキュメントはあらゆる適切な時点で処理しうる、例えば、データリポジトリに保存されるとき、または所定のスケジュール(例えば、週に一度新しいドキュメントを処理する)、またはその他のあらゆる適切な時点が挙げられる。電子ドキュメントに対して処理を実行することによって、電子ドキュメント内のオブジェクトに関するメタデータを生成し、メタデータを電子ドキュメントに保存しうる。これにより、物理的ドキュメントの電子コピーはオブジェクトに関するメタデータを用いて検索しうる。
具体的には、電子ドキュメントはステップ510及び515に説明されるように処理しうる。つまり、電子ドキュメント内のすべてのオブジェクトについてタグが決定され、当該オブジェクト及びタグに基づいてメタデータが生成される。生成されたメタデータは次に電子ドキュメントに保存される。メタデータは例えば見えないテキストレイヤーかその他の適切な方法で保存される。ユーザーに見えるか見えないかを問わず、メタデータをテキスト形式で保存することによって、既存のテキスト検索を用いてメタデータを検索することができる。また、第二実施形態においては、オブジェクトのタグはすでに電子ドキュメントに存在しうる(つまりドキュメントはネイティブ形式である)。そしてメタデータは既存のタグを用いて生成され、電子ドキュメントに保存される。
ステップ505において、オブジェクトを含むドキュメントの物理的コピーをスキャンしたものが受信される。このようなスキャンは既知のまたは今後開発されるあらゆる形式のあらゆる解像度及び/またはサイズで受信しうる。スキャンはスキャナー自体で実行されるかその他の演算装置で実行される、プログラムまたはアプリケーションによって受信しうる。
ステップ510において、オブジェクトについてタグが決定される。タグはオブジェクトの少なくとも一部を定義し、あらゆる適切な方法によって決定されうる。第二実施形態においては、オブジェクトとテンプレートとを比較して、オブジェクトが既知のタグ付きオブジェクトと同様かを判断しうる。または、タグは有力な推測のアルゴリズム、ユーザーからの入力またはその他の適切な方法に基づいて決定しうる。
ステップ515において、メタデータはオブジェクト及びタグに基づいて生成される。メタデータはオブジェクトの構成情報を含み、既知のまたは今後開発されるあらゆる態様で生成されうる。メタデータはオブジェクトとそのタグに基づいて生成しうる。第二実施形態においては、メタデータは、オブジェクトの種類、サイズ、色、位置、形状等のオブジェクトの特徴を記述しうる。
ステップ520において、データリポジトリはメタデータを用いて検索される。具体的には、メタデータの一部または全部を用いた検索用語によるテキスト検索が用いられる。また、テキスト検索はOCRまたはその他の方法によって認識されたテキスト等のドキュメントからのテキストコンテンツを含むことがある。よって、物理的コピーのメタデータはデータリポジトリ内の電子ドキュメントのメタデータと比較され、これによってドキュメントにテキストがほとんどまたはまったくない場合でも電子ドキュメントを見つけることができる。テキスト検索は既知のまたは今後開発されるあらゆる方法で実行しうる。第二実施形態においては、データリポジトリ内のすべてのドキュメントが検索にかけられる。また、一部の電子ドキュメントを検索することが可能であり、例えば、ユーザーにアクセスが認められている電子ドキュメントのみを検索することが可能である(ステップ525)。
ステップ525において、ユーザーが電子ドキュメントにアクセスする許可を有するか判断される。任意に、第二実施形態において、ステップ525はステップ520の前またはこれと同時に実行しうる。ユーザーの許可状況によってユーザーがどの電子ドキュメントに対して閲覧、編集またはその他のアクセスが可能かを指定しうる。例えば、ユーザーにユーザー名、パスワードまたはその他の身元証明を入力させ、ユーザーが電子ドキュメント及び/またはデータリポジトリの一部にアクセスする許可を有するかを確認することによって、ユーザーの許可状況を判断しうる。ユーザーが電子ドキュメントのアクセスを許可されていない場合、処理は終了する。また、第二実施形態においては、ユーザーが電子ドキュメントへのアクセスを許可されていない場合、設定及び/または許可状況に基づいて、ドキュメントに関する一部の情報がユーザーに提供されうる。例えば、ユーザーは一致が存在するか否かまたは複数の一致が存在するかを知らされうる。さらに、必要な許可のレベル、またはその他の適切な情報を提供しうる。ユーザーが電子ドキュメントにアクセスする許可を有しない場合、処理はステップ530へ進む。
ステップ530において、見つけられた電子ドキュメントはユーザーへ提供される。見つけられた電子ドキュメントは適切な方法でユーザーへ提供される。具体的に、電子ドキュメントの場所は、リンクに示され(例えば、ハイパーリンク)、またはその名前がスキャナー上の表示、音声メッセージ、電子メール、プリントアウト等によって示される。また、電子ドキュメントのコピーがユーザーに電子メールで送信されうる。本明細書の開示から、見つけられた電子ドキュメントをユーザーへ提供する様々な方法があることは当業者にとって明らかであり、よって、本発明の上述の例示に限定されない。
図6は本発明の第二実施形態に基づく一例を示す。当該例示は説明のみを目的とするものであり、本発明の範囲を限定するものではない。具体的には図6はドキュメント発見の例を示す。図6において、ユーザーは電子ドキュメントのプリントアウトである物理的コピー(600)を所有する。物理的コピー(600)において、ドキュメントの左下の角に小さい黒い円が含まれている。ユーザーがドキュメントの電子コピーを見つけたいと望む場合、ユーザーはスキャナー(605)上に物理的コピー(600)を置き、ドキュメントをスキャンする。ユーザーは単にスキャナーの「オリジナルを見つける」等のボタンを押しスキャナーに物理的コピー(600)の電子コピーを探すように指示しうる。
そして、スキャナー(605)は物理的コピーを処理し、物理的コピー(600)にオブジェクトつまり小さい黒い円があることを認識する。スキャナー(605)は小さい黒い円のためのタグを決定する。小さい黒い円のためのタグを決定した後、オブジェクト及びタグに基づくメタデータ(610)が生成される。具体的に、メタデータ(610)はオブジェクトを記述する。メタデータ(610)は電子ファイルで見られるような状態で示され、ユーザーには見えないことがある。今回の例で生成されるメタデータは以下の通りである、「円、黒、小さい、左下」。今回の例で生成されるメタデータ及びタグはあらゆる適切なエンティティによって設定されたルールに基づくものであり、また、時間の経過とともに見直されることで、同じオブジェクトがメタデータを生成するルールに変更があった時点の後に処理された場合、異なるタグを有しうる。続いて、生成されたメタデータを用いて検索(615)が実施される。検索(615)において用いられる検索用語が「小さい黒い円、左下」であることが示される。検索(615)は大量の電子ドキュメント(625)を含むデータリポジトリ(620)内またはそれに対して実行される。電子ドキュメント(625)に物理的コピー(600)のコピーが含まれる場合、検索に応じてドキュメントの位置またはドキュメント自体が回答される。検索(615)の結果(630)は「物理的ドキュメントの電子コピーはネットワークドライブYの『プレゼンテーション』というフォルダに位置し、『マーケティングプレゼンテーション2012』というファイル名を有します」。そしてユーザーはネットワークドライブYへ行き、編集やその他の目的で電子ドキュメントにアクセスすることができる。
任意に、図6においてユーザーは「オリジナルを見つける」というボタンを押した際にログインするかまたはパスワードを入力することがスキャナー(605)により求められうる。このようなログイン及び/またはパスワードを用いてユーザーが電子コピーにアクセスすることが認められるかが判断され、認められない場合は、電子コピーが見つけられても検索によって結果が返されない。
当業者は本発明が非ネイティブハードコピーへの適用に限定されないことを理解するであろう。本発明の第二実施形態は非ネイティブ電子ドキュメントにも適用することができる。例えば、当初別の形式で作成されたドキュメントのPDFコピーを有するユーザーがいる場合を考える。PDFコピーはネイティブドキュメントが有していたタグを欠き、これによりユーザーが容易にドキュメントを編集することが妨げられるので、ユーザーはオリジナルドキュメントを見つけてドキュメントにいくつかの変更を加えたいと思うことがある。ハードコピーのスキャンと同様にPDFコピーを分析し、オブジェクトのタグが認識され、メタデータが生成される。そして、メタデータと、任意にその他の通常のテキストを検索用語として用いて電子ドキュメントのデータベースのテキスト検索を実行しうる。一致または複数の一致が見つかった場合は、その位置が適切な方法でユーザーに表示及び/または提供される。
当業者は本発明が上述の例に限定されないことを理解しうるであろう。その他の具体例として、タグ付きオブジェクトを有しないネイティブ電子ファイルの場合、タグ及び/またはメタデータを追加することによって利益が得られる。JPEGをはじめとする多くのファイル形式はタグを欠く。よって、ネイティブファイルが単にJPEG画像で、続いて印刷された場合、JPEGについて上述のステップを実行すれば、ユーザーはオリジナルJPEGファイルを見つけられる場合がある。この例において、ユーザーはJPEGのプリントアウトをスキャナー上に置き、オリジナルドキュメントが画像であっても、メタデータ用語によるテキスト検索を用いてオリジナル電子JPEGドキュメントを見つけることに成功しうる。
本発明の実施形態は用いられるプラットフォームを問わず、ヴァーチャル上であらゆる種類のコンピューティングシステムで実施しうる。例えば、コンピューティングシステムとして、一以上のモバイル装置(例えば、ラップトップコンピューター、スマートフォン、電子手帳、タブレットコンピューター、またはその他のモバイルデバイス)、デスクトップコンピューター、サーバー、サーバー筐体内のブレード、もしくはその他の種類の演算装置、または本発明の一以上の実施形態を実行しうる装置であり、少なくとも最低限の処理能力、メモリー並びに入力及び出力手段を有するものが挙げられる。例えば、図7に示すように、コンピューティングシステム(700)は一以上のコンピュータープロセッサー(702)、関連付けられたメモリー(704)(例えば、RAM、キャッシュメモリー、フラッシュメモリー等)、一以上の記憶装置(706)(例えば、ハードディスク、コンパクトディスク(CD)ドライブまたはデジタル多目的ディスク(DVD)ドライブ等の光学ドライブ、フラッシュメモリーディスク等)及び数々のその他の要素及び機能を有する。コンピュータープロセッサー(702)は指示を処理する集積回路でありうる。例えば、コンピュータープロセッサーはプロセッサーの一以上のコアまたはマイクロコアでありうる。コンピューティングシステム(700)は一以上の入力装置(710)を含み、例えば、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペンまたはその他の種類の入力装置が挙げられる。また、コンピューティングシステム(700)は一以上の出力装置(708)を含み、例えば、スクリーン(例えば、液晶表示装置(LCD)、プラズマディスプレイ、タッチスクリーン、ブラウン管(CRT)モニター、プロジェクター、またはその他の表示装置)、プリンター、外部記憶装置、またはその他の出力装置が挙げられる。一以上の出力装置は入力装置と同じまたは異なるものでありうる。コンピューティングシステム(700)はネットワークインターフェイス接続(図示せず)を介してネットワーク(712)(例えば、ローカルエリアネットワーク(LAN)、インターネット等のワイドエリアネットワーク(WAN)、モバイルネットワーク、またはその他の種類のネットワーク)に接続されうる。入力装置及び出力装置はローカルまたはリモートで(例えば、ネットワーク(712)を介して)、コンピュータープロセッサー(702)、メモリー(704)、及び記憶装置に(706)接続されうる。様々な異なる種類のコンピューティングシステムが存在し、上述の入力装置及び出力装置も様々な形式がある。
本発明を実施する、コンピューター読取可能プログラムコードの形式のソフトウェア指示はその全部または一部が、一時的にまたは永久的に、非一時的コンピューター読取媒体に記憶することができ、例えば、CD、DVD、記憶装置、ディスケット、テープ、フラシュメモリー、物理的メモリーまたはその他のコンピューター読取記憶媒体が挙げられる。具体的に、ソフトウェア指示はプロセッサーによって実行されると本発明の実施形態を実施するように構成されるコンピューター読取可能プログラムコードに対応しうる。
また、上述のコンピューティングシステム(700)の一以上の構成要素は離れた場所に位置し、ネットワーク(712)上で他の構成要素と接続されうる。また、本発明の実施形態は複数のノードを有する分散システムに適用することができ、本発明の各部分を分散システム内の異なるノードに配置しうる。本発明のある実施形態においては、ノードは異なるコンピューティングデバイスに対応する。また、ノードは関連付けられた物理的メモリーを有するコンピュータープロセッサーと対応しうる。ノードはまた共有メモリー及び/またはリソースを有するコンピュータープロセッサーまたはコンピュータープロセッサーのマイクロコアと対応しうる。
本発明は限られた数の実施形態により説明されたが、当業者は本明細書を利用することによって、本明細書において開示される本発明の範囲を逸脱することなく、その他の実施形態を考案することが可能であることを理解するであろう。よって、本発明の範囲は添付されたクレームのみによって限定される。

Claims (45)

  1. コンピュータープロセッサーを備えたコンピューティングシステムにより、非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化する方法であって、
    前記コンピュータープロセッサーにより、ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化するステップと、
    前記コンピュータープロセッサーにより、前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成するステップと、
    前記コンピュータープロセッサーにより、前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成するステップと、
    を備える方法
  2. 前記非ネイティブファイルは物理的ドキュメントであり、前記ネイティブファイルはOOXMLファイルである、請求項1に記載の方法。
  3. 前記オブジェクト化オブジェクトはネイティブ形式では編集可能であり、前記メタデータは検索可能である、請求項1に記載の方法。
  4. 前記オブジェクトはグラフィックオブジェクトであり、前記メタデータは前記オブジェクトのグラフィックの種類と前記非ネイティブファイルのページにおける前記オブジェクトの位置を記述する、請求項1に記載の方法。
  5. 前記コンピュータープロセッサーにより、前記新しいネイティブファイルのファイル形式をユーザーから受信するステップをさらに備え、
    前記タグの決定の一部は前記ファイル形式に基づく、請求項1に記載の方法。
  6. 前記タグを決定するステップは、前記オブジェクトと複数のテンプレートと比較するステップを含み、前記複数のテンプレートのそれぞれのテンプレートが前記ネイティブファイルのファイル形式からのネイティブタグに対応する、請求項1に記載の方法。
  7. 前記非ネイティブファイルはスキャナーから取得される、請求項1に記載の方法。
  8. 非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化するシステムであって、
    コンピュータープロセッサーと、
    前記コンピュータープロセッサー上で実行されるオブジェクト化部と、
    を備え、
    前記オブジェクト化部は、
    ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化し、
    前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成し、
    前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成するシステム
  9. 前記非ネイティブファイルは物理的ドキュメントであり、前記ネイティブファイルはOOXMLファイルである、請求項8に記載のシステム。
  10. 前記オブジェクト化オブジェクトはネイティブ形式では編集可能であり、前記メタデータは検索可能である、請求項8に記載のシステム。
  11. 前記オブジェクトはグラフィックオブジェクトであり、前記メタデータは前記オブジェクトのグラフィックの種類と前記非ネイティブファイルのページにおける前記オブジェクトの位置を記述する、請求項8に記載のシステム。
  12. 前記オブジェクト化部はさらに、前記新しいネイティブファイルのファイル形式をユーザーから受信し、
    前記タグの決定の一部は前記ファイル形式に基づく、請求項8に記載のシステム。
  13. 前記タグを決定することはさらに、前記オブジェクトと複数のテンプレートと比較することを含み、前記複数のテンプレートのそれぞれのテンプレートが前記ネイティブファイルのファイル形式からのネイティブタグに対応する、請求項8に記載のシステム。
  14. 前記非ネイティブファイルを取得するスキャナーをさらに備える、請求項8に記載のシステム。
  15. 非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化する指示を含むコンピュータープログラムであって、コンピューターに、
    ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化させ、
    前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成させ、
    前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成させるためのプログラム。
  16. 前記非ネイティブファイルは物理的ドキュメントであり、前記ネイティブファイルはOOXMLファイルである、請求項15に記載のコンピュータープログラム。
  17. 前記オブジェクト化オブジェクトはネイティブ形式では編集可能であり、前記メタデータは検索可能である、請求項15に記載のコンピュータープログラム。
  18. 前記オブジェクトはグラフィックオブジェクトであり、前記メタデータは前記オブジェクトのグラフィックの種類と前記非ネイティブファイルのページにおける前記オブジェクトの位置を記述する、請求項15に記載のコンピュータープログラム。
  19. 前記新しいネイティブファイルのファイル形式をユーザーから受信させることをさらに含み、
    前記タグの決定の一部は前記ファイル形式に基づく、請求項15に記載のコンピュータープログラム。
  20. 前記タグを決定させることは、前記オブジェクトと複数のテンプレートと比較させることを含み、前記複数のテンプレートのそれぞれのテンプレートが前記ネイティブファイルのファイル形式からのネイティブタグに対応する、請求項15に記載のコンピュータープログラム。
  21. 前記非ネイティブファイルはスキャナーから取得される、請求項15に記載のコンピュータープログラム。
  22. コンピュータープロセッサーを備えたコンピューティングシステムによりドキュメントを検出する方法であって、
    前記コンピュータープロセッサーにより、非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信するステップと、
    前記コンピュータープロセッサーにより、オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定するステップと、
    前記コンピュータープロセッサーにより、前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成するステップと、
    前記コンピュータープロセッサーにより、前記生成された非テキストオブジェクトメタデータを用いて、データリポジトリに記憶され、それぞれがオブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータを含む複数の電子ドキュメントを検索するステップと、
    前記コンピュータープロセッサーにより、前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較するステップと、
    前記コンピュータープロセッサーにより、前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供するステップと、
    を備える方法
  23. 前記コンピュータープロセッサーにより、電子ドキュメントにおける前記オブジェクトについて第二タグを抽出し、前記オブジェクトを記述する前記検索可能なメタデータを前記第二タグに基づいて生成し、前記オブジェクトに関連付けられる前記電子ドキュメントにおいて前記検索可能なメタデータを記憶することによって、前記データリポジトリに記憶される前記複数の電子ドキュメントからの電子ドキュメントを処理するステップをさらに備える、請求項22に記載の方法。
  24. 前記オリジナルファイルはOOXMLファイルであり、前記オリジナルファイルは前記データリポジトリに記憶される前記複数の電子ドキュメントの一つである、請求項22に記載の方法。
  25. 前記コンピュータープロセッサーにより、ユーザーが前記オリジナルファイルにアクセスする権限を有するか判断するステップをさらに備え、前記位置は前記ユーザーが前記オリジナルファイルにアクセスする権限を有すると判断された場合のみ提供される、請求項22に記載の方法。
  26. 前記位置は前記ユーザーに電子メールで提供される、請求項22に記載の方法。
  27. 前記位置は前記位置をスキャナーのディスプレイに表示することによって提供される、請求項22に記載の方法。
  28. 前記データリポジトリはエンタープライズコンテンツ管理(ECM)システムの一部である、請求項22に記載の方法。
  29. 前記検索するステップはさらに光学式文字認識(OCR)を介して前記ドキュメント内で検出される通常のテキストを用いるステップを備える、請求項22に記載の方法。
  30. ドキュメントを検出するシステムであって、
    オブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータとを含む電子ドキュメントを複数記憶するデータリポジトリと、
    コンピュータープロセッサーと、
    前記コンピュータープロセッサー上で実行されるドキュメントロケーターと、
    を備え、
    前記ドキュメントロケーターは、
    非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信し、
    オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定し、
    前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成し、
    前記生成された非テキストオブジェクトメタデータを用いて、前記データリポジトリに記憶される複数の電子ドキュメントを検索し、
    前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較し、
    前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供するシステム
  31. 前記ドキュメントロケーターは、電子ドキュメントにおける前記オブジェクトについて第二タグを抽出し、前記オブジェクトを記述する前記検索可能なメタデータを前記第二タグに基づいて生成し、前記オブジェクトに関連付けられる前記電子ドキュメントにおいて前記検索可能なメタデータを記憶することによって、前記データリポジトリに記憶される前記複数の電子ドキュメントからの電子ドキュメントを処理する、請求項30に記載のシステム。
  32. 前記オリジナルファイルはOOXMLファイルであり、前記オリジナルファイルは前記データリポジトリに記憶される前記複数の電子ドキュメントの一つである、請求項30に記載のシステム。
  33. 前記ドキュメントロケーターは、ユーザーが前記オリジナルファイルにアクセスする権限を有するか判断し、前記位置は前記ユーザーが前記オリジナルファイルにアクセスする権限を有すると判断された場合のみ提供される、請求項30に記載のシステム。
  34. 前記位置は前記ユーザーに電子メールで提供される、請求項30に記載のシステム。
  35. 前記位置は前記位置をスキャナーのディスプレイに表示することによって提供される、請求項30に記載のシステム。
  36. 前記データリポジトリはエンタープライズコンテンツ管理(ECM)システムの一部である、請求項30に記載のシステム。
  37. 前記検索することはさらに光学式文字認識(OCR)を介して前記ドキュメント内で検出される通常のテキストを用いることを備える、請求項30に記載のシステム。
  38. ドキュメントを検出する指示を含むコンピュータープログラムであって、コンピューターに、
    非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信させ、
    オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定させ、
    前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成させ、
    前記生成された非テキストオブジェクトメタデータを用いて、データリポジトリに記憶され、それぞれがオブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータを含む複数の電子ドキュメントを検索させ、
    前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較させ、
    前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供させるためのプログラム。
  39. 電子ドキュメントにおける前記オブジェクトについて第二タグを抽出し、前記オブジェクトを記述する前記検索可能なメタデータを前記第二タグに基づいて生成し、前記オブジェクトに関連付けられる前記電子ドキュメントにおいて前記検索可能なメタデータを記憶することによって、前記データリポジトリに記憶される前記複数の電子ドキュメントからの電子ドキュメントを処理させることをさらに備える、請求項38に記載のコンピュータープログラム。
  40. 前記オリジナルファイルはOOXMLファイルであり、前記オリジナルファイルは前記データリポジトリに記憶される前記複数の電子ドキュメントの一つである、請求項38に記載のコンピュータープログラム。
  41. ユーザーが前記オリジナルファイルにアクセスする権限を有するか判断させることをさらに備え、前記位置は前記ユーザーが前記オリジナルファイルにアクセスする権限を有すると判断された場合のみ提供させる、請求項38に記載のコンピュータープログラム。
  42. 前記位置は前記ユーザーに電子メールで提供させる、請求項38に記載のコンピュータープログラム。
  43. 前記位置は前記位置をスキャナーのディスプレイに表示することによって提供させる、請求項38に記載のコンピュータープログラム。
  44. 前記データリポジトリはエンタープライズコンテンツ管理(ECM)システムの一部である、請求項38に記載のコンピュータープログラム。
  45. 前記検索させることはさらに光学式文字認識(OCR)を介して前記ドキュメント内で検出される通常のテキストを用いることを含む、請求項38に記載のコンピュータープログラム。
JP2015255694A 2014-12-31 2015-12-28 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 Active JP6262708B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US14/588,194 2014-12-31
US14/588,194 US9798724B2 (en) 2014-12-31 2014-12-31 Document discovery strategy to find original electronic file from hardcopy version
US14/588,165 2014-12-31
US14/588,165 US9864750B2 (en) 2014-12-31 2014-12-31 Objectification with deep searchability

Publications (2)

Publication Number Publication Date
JP2016129021A JP2016129021A (ja) 2016-07-14
JP6262708B2 true JP6262708B2 (ja) 2018-01-17

Family

ID=56296429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015255694A Active JP6262708B2 (ja) 2014-12-31 2015-12-28 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法

Country Status (2)

Country Link
JP (1) JP6262708B2 (ja)
CN (1) CN105740317B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145530A (zh) * 2017-04-18 2017-09-08 北京明朝万达科技股份有限公司 一种基于附加数据的文档检索方法及***
CN107506366A (zh) * 2017-06-27 2017-12-22 北京明朝万达科技股份有限公司 一种基于全局唯一id的文档生命周期管理方法及***
CN107291919A (zh) * 2017-06-28 2017-10-24 四川妥妥递科技有限公司 一种在pdf文件上在线添加域的***及其方法
CN108446348A (zh) * 2018-03-08 2018-08-24 广东国地规划科技股份有限公司 一种地址信息嵌入办公文档的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6886130B1 (en) * 1997-11-26 2005-04-26 International Business Machines Corporation Compiled structure for efficient operation of distributed hypertext
US6799299B1 (en) * 1999-09-23 2004-09-28 International Business Machines Corporation Method and apparatus for creating stylesheets in a data processing system
US20030098862A1 (en) * 2001-11-06 2003-05-29 Smartequip, Inc. Method and system for building and using intelligent vector objects
US20060085442A1 (en) * 2004-10-20 2006-04-20 Kabushiki Kaisha Toshiba Document image information management apparatus and document image information management program
CN101351767A (zh) * 2005-11-10 2009-01-21 麦乐迪斯公司 存储和检索基于非文本的信息的***和方法
US8532384B2 (en) * 2006-11-21 2013-09-10 Cameron Telfer Howie Method of retrieving information from a digital image
JP4757205B2 (ja) * 2007-01-18 2011-08-24 シャープ株式会社 画像処理装置、画像処理システム、および画像処理プログラム
US20100214614A1 (en) * 2009-02-23 2010-08-26 Andrew Rodney Ferlitsch Context-aware printing method and system
US8320644B2 (en) * 2010-06-15 2012-11-27 Apple Inc. Object detection metadata
US8793572B2 (en) * 2011-06-30 2014-07-29 Konica Minolta Laboratory U.S.A., Inc. Positioning graphical objects within previously formatted text
KR101993241B1 (ko) * 2012-08-06 2019-06-26 삼성전자주식회사 이미지에 대한 부가 정보 태깅 및 검색 방법과 시스템, 기기와 그 기록 매체
EP2893463A4 (en) * 2012-09-07 2016-06-15 American Chemical Soc AUTOMATED EVALUATORS FOR COMPOSITIONS
US9535913B2 (en) * 2013-03-08 2017-01-03 Konica Minolta Laboratory U.S.A., Inc. Method and system for file conversion

Also Published As

Publication number Publication date
JP2016129021A (ja) 2016-07-14
CN105740317B (zh) 2019-05-14
CN105740317A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
EP3024213B1 (en) Image scanning apparatus and method for controlling the same
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
WO2016018683A1 (en) Image based search to identify objects in documents
US20150058708A1 (en) Systems and methods of character dialog generation
JP2009169536A (ja) 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
US10339204B2 (en) Converting electronic documents having visible objects
US20120046937A1 (en) Semantic classification of variable data campaign information
JP2009200699A (ja) 画像処理装置および画像処理方法
US9798724B2 (en) Document discovery strategy to find original electronic file from hardcopy version
US9864750B2 (en) Objectification with deep searchability
JP2010262584A (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2008040753A (ja) 画像処理装置、方法、プログラムおよび記録媒体
KR20110115553A (ko) 전자적 문서의 라우팅 방법 및 복합기 시스템
US11295124B2 (en) Methods and systems for automatically detecting the source of the content of a scanned document
US20200311059A1 (en) Multi-layer word search option
JP2017021654A (ja) 文書管理サーバ及びシステム
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
US10104264B2 (en) Method and system for generating electronic documents from paper documents while retaining information from the paper documents
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP6743470B2 (ja) 画像蓄積装置及び画像蓄積プログラム
US20190212893A1 (en) System and method for gesture document processing
JP2021144302A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170630

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171214

R150 Certificate of patent or registration of utility model

Ref document number: 6262708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150