JP6262708B2 - 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 - Google Patents
深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 Download PDFInfo
- Publication number
- JP6262708B2 JP6262708B2 JP2015255694A JP2015255694A JP6262708B2 JP 6262708 B2 JP6262708 B2 JP 6262708B2 JP 2015255694 A JP2015255694 A JP 2015255694A JP 2015255694 A JP2015255694 A JP 2015255694A JP 6262708 B2 JP6262708 B2 JP 6262708B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- metadata
- text
- native
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
- G06F16/1794—Details of file format conversion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一般的に、本発明の第一実施形態は非ネイティブドキュメントオブジェクトをそのネイティブ形式で認識するオブジェクト化(オブジェクトの定義)を行うための方法及びシステムを提供する。例えば、ユーザーが非ネイティブファイル(例えば、電子ドキュメントをプリントアウトしたハードコピー)にアクセスしうるが、ネイティブファイルにアクセスできない場合、ユーザーがドキュメントを編集したり検索したりする能力は限られる。本発明の第一実施形態によれば、ユーザーはネイティブファイル形式において編集することができ、深い検索性を有する新たな電子ドキュメントを作成することができる。深い検索性によって、オペレーティングシステム及び/またはドキュメントプログラムにおける既存の及び/または内蔵されるテキスト検索機能によって、画像、チャート、表、グラフ、写真、等のオブジェクトと共通する連続する記述を用いた検索を実行することができる。
一般に、本発明の第二実施形態はドキュメント検出に関する方法及びシステムを提供する。具体的には、本発明の第二実施形態によって、ユーザーは例えば、電子ドキュメントのスキャンされたハードコピー等の非ネイティブコピー内の非テキストオブジェクトに関する検索可能なメタデータを作成することによって、ドキュメントのコピーを用いてオリジナル電子ドキュメントを検出または見つけることが可能となる。第二実施形態によれば、例えば、ユーザーは検索可能なメタデータを電子ドキュメントと電子ドキュメントに由来するハードコピーとの間の用語の比較におけるテキストによるクエリーの一部として利用することができる。これによって、ユーザーがオリジナル電子ドキュメントを見つける可能性が上がり、引き続き編集、修正、印刷、保管等を行うことができる。本明細書において、物理的コピー、ハードコピー、紙コピー、プリントアウト及び物理的ファイルは同じ意味で用いられる。
Claims (45)
- コンピュータープロセッサーを備えたコンピューティングシステムにより、非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化する方法であって、
前記コンピュータープロセッサーにより、ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化するステップと、
前記コンピュータープロセッサーにより、前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成するステップと、
前記コンピュータープロセッサーにより、前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成するステップと、
を備える方法。 - 前記非ネイティブファイルは物理的ドキュメントであり、前記ネイティブファイルはOOXMLファイルである、請求項1に記載の方法。
- 前記オブジェクト化オブジェクトはネイティブ形式では編集可能であり、前記メタデータは検索可能である、請求項1に記載の方法。
- 前記オブジェクトはグラフィックオブジェクトであり、前記メタデータは前記オブジェクトのグラフィックの種類と前記非ネイティブファイルのページにおける前記オブジェクトの位置を記述する、請求項1に記載の方法。
- 前記コンピュータープロセッサーにより、前記新しいネイティブファイルのファイル形式をユーザーから受信するステップをさらに備え、
前記タグの決定の一部は前記ファイル形式に基づく、請求項1に記載の方法。 - 前記タグを決定するステップは、前記オブジェクトと複数のテンプレートとを比較するステップを含み、前記複数のテンプレートのそれぞれのテンプレートが前記ネイティブファイルのファイル形式からのネイティブタグに対応する、請求項1に記載の方法。
- 前記非ネイティブファイルはスキャナーから取得される、請求項1に記載の方法。
- 非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化するシステムであって、
コンピュータープロセッサーと、
前記コンピュータープロセッサー上で実行されるオブジェクト化部と、
を備え、
前記オブジェクト化部は、
ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化し、
前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成し、
前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成するシステム。 - 前記非ネイティブファイルは物理的ドキュメントであり、前記ネイティブファイルはOOXMLファイルである、請求項8に記載のシステム。
- 前記オブジェクト化オブジェクトはネイティブ形式では編集可能であり、前記メタデータは検索可能である、請求項8に記載のシステム。
- 前記オブジェクトはグラフィックオブジェクトであり、前記メタデータは前記オブジェクトのグラフィックの種類と前記非ネイティブファイルのページにおける前記オブジェクトの位置を記述する、請求項8に記載のシステム。
- 前記オブジェクト化部はさらに、前記新しいネイティブファイルのファイル形式をユーザーから受信し、
前記タグの決定の一部は前記ファイル形式に基づく、請求項8に記載のシステム。 - 前記タグを決定することはさらに、前記オブジェクトと複数のテンプレートとを比較することを含み、前記複数のテンプレートのそれぞれのテンプレートが前記ネイティブファイルのファイル形式からのネイティブタグに対応する、請求項8に記載のシステム。
- 前記非ネイティブファイルを取得するスキャナーをさらに備える、請求項8に記載のシステム。
- 非ネイティブファイル内のオブジェクトを含む非テキストコンテンツをオブジェクト化する指示を含むコンピュータープログラムであって、コンピューターに、
ネイティブファイル形式において前記オブジェクトを認識するためのタグを決定し、オブジェクトとタグとを含むオブジェクト化オブジェクトを作成することによって、非テキストコンテンツのオブジェクトをオブジェクト化させ、
前記オブジェクト化オブジェクトに基づいて、構成情報の少なくとも一部がネイティブファイルのためのネイティブアプリケーションによって検索可能なテキストデータである、オブジェクト化オブジェクトの構成情報を含むメタデータを生成させ、
前記メタデータを付加した前記オブジェクト化オブジェクトを含む新しいネイティブファイルを生成させるためのプログラム。 - 前記非ネイティブファイルは物理的ドキュメントであり、前記ネイティブファイルはOOXMLファイルである、請求項15に記載のコンピュータープログラム。
- 前記オブジェクト化オブジェクトはネイティブ形式では編集可能であり、前記メタデータは検索可能である、請求項15に記載のコンピュータープログラム。
- 前記オブジェクトはグラフィックオブジェクトであり、前記メタデータは前記オブジェクトのグラフィックの種類と前記非ネイティブファイルのページにおける前記オブジェクトの位置を記述する、請求項15に記載のコンピュータープログラム。
- 前記新しいネイティブファイルのファイル形式をユーザーから受信させることをさらに含み、
前記タグの決定の一部は前記ファイル形式に基づく、請求項15に記載のコンピュータープログラム。 - 前記タグを決定させることは、前記オブジェクトと複数のテンプレートとを比較させることを含み、前記複数のテンプレートのそれぞれのテンプレートが前記ネイティブファイルのファイル形式からのネイティブタグに対応する、請求項15に記載のコンピュータープログラム。
- 前記非ネイティブファイルはスキャナーから取得される、請求項15に記載のコンピュータープログラム。
- コンピュータープロセッサーを備えたコンピューティングシステムによりドキュメントを検出する方法であって、
前記コンピュータープロセッサーにより、非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信するステップと、
前記コンピュータープロセッサーにより、オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定するステップと、
前記コンピュータープロセッサーにより、前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成するステップと、
前記コンピュータープロセッサーにより、前記生成された非テキストオブジェクトメタデータを用いて、データリポジトリに記憶され、それぞれがオブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータを含む複数の電子ドキュメントを検索するステップと、
前記コンピュータープロセッサーにより、前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較するステップと、
前記コンピュータープロセッサーにより、前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供するステップと、
を備える方法。 - 前記コンピュータープロセッサーにより、電子ドキュメントにおける前記オブジェクトについて第二タグを抽出し、前記オブジェクトを記述する前記検索可能なメタデータを前記第二タグに基づいて生成し、前記オブジェクトに関連付けられる前記電子ドキュメントにおいて前記検索可能なメタデータを記憶することによって、前記データリポジトリに記憶される前記複数の電子ドキュメントからの電子ドキュメントを処理するステップをさらに備える、請求項22に記載の方法。
- 前記オリジナルファイルはOOXMLファイルであり、前記オリジナルファイルは前記データリポジトリに記憶される前記複数の電子ドキュメントの一つである、請求項22に記載の方法。
- 前記コンピュータープロセッサーにより、ユーザーが前記オリジナルファイルにアクセスする権限を有するか判断するステップをさらに備え、前記位置は前記ユーザーが前記オリジナルファイルにアクセスする権限を有すると判断された場合のみ提供される、請求項22に記載の方法。
- 前記位置は前記ユーザーに電子メールで提供される、請求項22に記載の方法。
- 前記位置は前記位置をスキャナーのディスプレイに表示することによって提供される、請求項22に記載の方法。
- 前記データリポジトリはエンタープライズコンテンツ管理(ECM)システムの一部である、請求項22に記載の方法。
- 前記検索するステップはさらに光学式文字認識(OCR)を介して前記ドキュメント内で検出される通常のテキストを用いるステップを備える、請求項22に記載の方法。
- ドキュメントを検出するシステムであって、
オブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータとを含む電子ドキュメントを複数記憶するデータリポジトリと、
コンピュータープロセッサーと、
前記コンピュータープロセッサー上で実行されるドキュメントロケーターと、
を備え、
前記ドキュメントロケーターは、
非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信し、
オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定し、
前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成し、
前記生成された非テキストオブジェクトメタデータを用いて、前記データリポジトリに記憶される複数の電子ドキュメントを検索し、
前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較し、
前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供するシステム。 - 前記ドキュメントロケーターは、電子ドキュメントにおける前記オブジェクトについて第二タグを抽出し、前記オブジェクトを記述する前記検索可能なメタデータを前記第二タグに基づいて生成し、前記オブジェクトに関連付けられる前記電子ドキュメントにおいて前記検索可能なメタデータを記憶することによって、前記データリポジトリに記憶される前記複数の電子ドキュメントからの電子ドキュメントを処理する、請求項30に記載のシステム。
- 前記オリジナルファイルはOOXMLファイルであり、前記オリジナルファイルは前記データリポジトリに記憶される前記複数の電子ドキュメントの一つである、請求項30に記載のシステム。
- 前記ドキュメントロケーターは、ユーザーが前記オリジナルファイルにアクセスする権限を有するか判断し、前記位置は前記ユーザーが前記オリジナルファイルにアクセスする権限を有すると判断された場合のみ提供される、請求項30に記載のシステム。
- 前記位置は前記ユーザーに電子メールで提供される、請求項30に記載のシステム。
- 前記位置は前記位置をスキャナーのディスプレイに表示することによって提供される、請求項30に記載のシステム。
- 前記データリポジトリはエンタープライズコンテンツ管理(ECM)システムの一部である、請求項30に記載のシステム。
- 前記検索することはさらに光学式文字認識(OCR)を介して前記ドキュメント内で検出される通常のテキストを用いることを備える、請求項30に記載のシステム。
- ドキュメントを検出する指示を含むコンピュータープログラムであって、コンピューターに、
非テキストオブジェクトを有するドキュメントの物理的コピーのスキャンを受信させ、
オリジナルファイルにおいて前記非テキストオブジェクトを認識するための第一タグを前記非テキストオブジェクトについて決定させ、
前記第一タグに基づいて、前記非テキストオブジェクトの構成情報を含む非テキストオブジェクトメタデータを生成させ、
前記生成された非テキストオブジェクトメタデータを用いて、データリポジトリに記憶され、それぞれがオブジェクトと前記オブジェクトに関連付けられた検索可能なメタデータを含む複数の電子ドキュメントを検索させ、
前記非テキストオブジェクトメタデータを前記検索可能なメタデータと比較させ、
前記非テキストオブジェクトメタデータが前記検索可能なメタデータと一致する場合、ユーザーに前記オリジナルファイルの位置を提供させるためのプログラム。 - 電子ドキュメントにおける前記オブジェクトについて第二タグを抽出し、前記オブジェクトを記述する前記検索可能なメタデータを前記第二タグに基づいて生成し、前記オブジェクトに関連付けられる前記電子ドキュメントにおいて前記検索可能なメタデータを記憶することによって、前記データリポジトリに記憶される前記複数の電子ドキュメントからの電子ドキュメントを処理させることをさらに備える、請求項38に記載のコンピュータープログラム。
- 前記オリジナルファイルはOOXMLファイルであり、前記オリジナルファイルは前記データリポジトリに記憶される前記複数の電子ドキュメントの一つである、請求項38に記載のコンピュータープログラム。
- ユーザーが前記オリジナルファイルにアクセスする権限を有するか判断させることをさらに備え、前記位置は前記ユーザーが前記オリジナルファイルにアクセスする権限を有すると判断された場合のみ提供させる、請求項38に記載のコンピュータープログラム。
- 前記位置は前記ユーザーに電子メールで提供させる、請求項38に記載のコンピュータープログラム。
- 前記位置は前記位置をスキャナーのディスプレイに表示することによって提供させる、請求項38に記載のコンピュータープログラム。
- 前記データリポジトリはエンタープライズコンテンツ管理(ECM)システムの一部である、請求項38に記載のコンピュータープログラム。
- 前記検索させることはさらに光学式文字認識(OCR)を介して前記ドキュメント内で検出される通常のテキストを用いることを含む、請求項38に記載のコンピュータープログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/588,194 | 2014-12-31 | ||
US14/588,194 US9798724B2 (en) | 2014-12-31 | 2014-12-31 | Document discovery strategy to find original electronic file from hardcopy version |
US14/588,165 | 2014-12-31 | ||
US14/588,165 US9864750B2 (en) | 2014-12-31 | 2014-12-31 | Objectification with deep searchability |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016129021A JP2016129021A (ja) | 2016-07-14 |
JP6262708B2 true JP6262708B2 (ja) | 2018-01-17 |
Family
ID=56296429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015255694A Active JP6262708B2 (ja) | 2014-12-31 | 2015-12-28 | 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6262708B2 (ja) |
CN (1) | CN105740317B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145530A (zh) * | 2017-04-18 | 2017-09-08 | 北京明朝万达科技股份有限公司 | 一种基于附加数据的文档检索方法及*** |
CN107506366A (zh) * | 2017-06-27 | 2017-12-22 | 北京明朝万达科技股份有限公司 | 一种基于全局唯一id的文档生命周期管理方法及*** |
CN107291919A (zh) * | 2017-06-28 | 2017-10-24 | 四川妥妥递科技有限公司 | 一种在pdf文件上在线添加域的***及其方法 |
CN108446348A (zh) * | 2018-03-08 | 2018-08-24 | 广东国地规划科技股份有限公司 | 一种地址信息嵌入办公文档的方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6886130B1 (en) * | 1997-11-26 | 2005-04-26 | International Business Machines Corporation | Compiled structure for efficient operation of distributed hypertext |
US6799299B1 (en) * | 1999-09-23 | 2004-09-28 | International Business Machines Corporation | Method and apparatus for creating stylesheets in a data processing system |
US20030098862A1 (en) * | 2001-11-06 | 2003-05-29 | Smartequip, Inc. | Method and system for building and using intelligent vector objects |
US20060085442A1 (en) * | 2004-10-20 | 2006-04-20 | Kabushiki Kaisha Toshiba | Document image information management apparatus and document image information management program |
CN101351767A (zh) * | 2005-11-10 | 2009-01-21 | 麦乐迪斯公司 | 存储和检索基于非文本的信息的***和方法 |
US8532384B2 (en) * | 2006-11-21 | 2013-09-10 | Cameron Telfer Howie | Method of retrieving information from a digital image |
JP4757205B2 (ja) * | 2007-01-18 | 2011-08-24 | シャープ株式会社 | 画像処理装置、画像処理システム、および画像処理プログラム |
US20100214614A1 (en) * | 2009-02-23 | 2010-08-26 | Andrew Rodney Ferlitsch | Context-aware printing method and system |
US8320644B2 (en) * | 2010-06-15 | 2012-11-27 | Apple Inc. | Object detection metadata |
US8793572B2 (en) * | 2011-06-30 | 2014-07-29 | Konica Minolta Laboratory U.S.A., Inc. | Positioning graphical objects within previously formatted text |
KR101993241B1 (ko) * | 2012-08-06 | 2019-06-26 | 삼성전자주식회사 | 이미지에 대한 부가 정보 태깅 및 검색 방법과 시스템, 기기와 그 기록 매체 |
EP2893463A4 (en) * | 2012-09-07 | 2016-06-15 | American Chemical Soc | AUTOMATED EVALUATORS FOR COMPOSITIONS |
US9535913B2 (en) * | 2013-03-08 | 2017-01-03 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for file conversion |
-
2015
- 2015-12-28 JP JP2015255694A patent/JP6262708B2/ja active Active
- 2015-12-31 CN CN201511030093.3A patent/CN105740317B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016129021A (ja) | 2016-07-14 |
CN105740317B (zh) | 2019-05-14 |
CN105740317A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3024213B1 (en) | Image scanning apparatus and method for controlling the same | |
JP5353148B2 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP6262708B2 (ja) | 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 | |
WO2016018683A1 (en) | Image based search to identify objects in documents | |
US20150058708A1 (en) | Systems and methods of character dialog generation | |
JP2009169536A (ja) | 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム | |
US10339204B2 (en) | Converting electronic documents having visible objects | |
US20120046937A1 (en) | Semantic classification of variable data campaign information | |
JP2009200699A (ja) | 画像処理装置および画像処理方法 | |
US9798724B2 (en) | Document discovery strategy to find original electronic file from hardcopy version | |
US9864750B2 (en) | Objectification with deep searchability | |
JP2010262584A (ja) | 情報処理装置、情報処理システム、情報処理方法およびプログラム | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2008040753A (ja) | 画像処理装置、方法、プログラムおよび記録媒体 | |
KR20110115553A (ko) | 전자적 문서의 라우팅 방법 및 복합기 시스템 | |
US11295124B2 (en) | Methods and systems for automatically detecting the source of the content of a scanned document | |
US20200311059A1 (en) | Multi-layer word search option | |
JP2017021654A (ja) | 文書管理サーバ及びシステム | |
JP6303742B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
US10104264B2 (en) | Method and system for generating electronic documents from paper documents while retaining information from the paper documents | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
JP6743470B2 (ja) | 画像蓄積装置及び画像蓄積プログラム | |
US20190212893A1 (en) | System and method for gesture document processing | |
JP2021144302A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160704 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170630 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6262708 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |