JP2004348706A - 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム - Google Patents

情報処理装置及び情報処理方法ならびに記憶媒体、プログラム Download PDF

Info

Publication number
JP2004348706A
JP2004348706A JP2004067779A JP2004067779A JP2004348706A JP 2004348706 A JP2004348706 A JP 2004348706A JP 2004067779 A JP2004067779 A JP 2004067779A JP 2004067779 A JP2004067779 A JP 2004067779A JP 2004348706 A JP2004348706 A JP 2004348706A
Authority
JP
Japan
Prior art keywords
information processing
document image
image
similarity
vector data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004067779A
Other languages
English (en)
Other versions
JP2004348706A5 (ja
Inventor
Mitsuru Uzawa
充 鵜沢
Takami Eguchi
貴巳 江口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004067779A priority Critical patent/JP2004348706A/ja
Priority to EP04252221A priority patent/EP1473642A3/en
Priority to US10/828,166 priority patent/US7593961B2/en
Priority to CNB2004100366688A priority patent/CN100458773C/zh
Publication of JP2004348706A publication Critical patent/JP2004348706A/ja
Publication of JP2004348706A5 publication Critical patent/JP2004348706A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 各属性の検索結果に対し、レイアウト情報に応じて、適応的に検索結果を評価することで、より正確にオリジナル文書を検索する。
【解決手段】 入力される文書画像に類似する画像データを検索するための情報処理方法であって、前記入力される文書画像を属性ごとに複数の領域に分割する工程(ステップS402)と、前記分割された領域ごとに、前記属性に適した検索工程により、類似度を算出する工程と、前記分割された領域ごとに算出された類似度に重み付けをした総合類似度を算出する工程(ステップS406)とを備える。
【選択図】 図4

Description

本発明は、スキャナなどの入力装置で読み取られた画像と類似する画像データを、データベースから検索する検索技術に関するものである。
近年、環境問題が叫ばれる中、オフィスでのペーパーレス化が急速に進んでいる。このような中、バインダー等で蓄積された紙文書や配付資料等をスキャナで読み取り、オリジナルの電子文書を検索する装置が提案されている(特許文献1参照)。
特許第3017851号公報
しかしながら、上記従来技術で述べたような検索装置では、ビットマップで比較するという手法を全ての画像に対し一律に行うので、文書画像の内容によっては検索効率や検索精度が悪くなることが考えられる。そこで、本出願人は、オリジナルの文書を検索するにあたり、オリジナル文書とスキャナ読み取り画像からそれぞれテキスト、写真、線画など属性ごとの特徴量を算出したうえで、テキストの一致度、写真画像の一致度、そして各属性のレイアウト情報を用いたレイアウトの一致度など複数の一致度を総合的に判断するような検索手法(このような検索を「複合検索」という)を有する文書管理システムを考えている。
このような文書管理システムにおいて取り扱われる文書は、テキスト属性の多い文書から、写真・線画の多い文書にいたるまで多岐にわたっており、文書ごとにレイアウト(文書内容)が大きく異なっている。そして、上記文書管理システムでは、総合的な判断を行う際に各属性ごとの検索結果を一律に評価するため、レイアウトが大きく異なる文書が混在する環境においては十分な検索精度が得られないという問題があった。また、重複文書を整理し、文書の再利用性を高めるためには、文書全体について総合的な判断をするのみならず、文書の一部分しか一致しないものについても検索することが必要となってくる。かかる一部一致の検索ニーズは、写真等を引用した場合などにおいても顕著であり、例えば、同一文書で著作者が異なる場合であって、個々の部分に対し適切にロイヤリティを徴収する必要がある場合などに不可欠である。
本発明は上記課題に鑑みてなされたものであり、各属性の検索結果を適応的に評価することで、より正確なオリジナル文書の検索を実現することを目的とする。
また、文書の一部分しか一致しない文書についても検索することで重複データの整理を容易にし、効率的な文書管理を実現することを目的とする。
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
入力される文書画像に類似する画像データを検索する情報処理装置であって、
前記入力される文書画像を属性ごとに複数の領域に分割する分割手段と、
前記分割された領域ごとに、前記属性に適した検索手段を用いて、類似度を算出する類似度算出手段と、
前記分割された領域ごとに算出された類似度に重み付けをした総合類似度を算出する総合類似度算出手段とを備える。
本発明によれば、各属性の検索結果を適応的に評価することで、より正確なオリジナル文書の検索を実現することが可能となる。
また、文書の部分しか一致しない文書についても検索することで重複データの整理を容易にし、効率的な文書管理を実現することが可能となる。
以下、図面を参照しながら、各実施の形態を詳細に説明していく。
<第1の実施形態>
本発明の第1の実施形態について説明する。図1は本発明にかかる情報処理方法を実現する画像処理システムの構成を示す図である。同図に示すように、本実施形態では、オフィス10とオフィス20とがインターネット104で接続された環境において本発明にかかる情報処理方法を実現する画像処理システムが構築されているものとする。
オフィス10内に構築されたLAN107には、MFP100、MFP100を制御するマネージメントPC101、クライアントPC(外部記憶手段を備える)102−1、文書管理サーバ106−1及びそのデータベース105−1、課金サーバ110、プロキシサーバ103−1がそれぞれ接続されている。同様にオフィス20内に構築されたLAN108には、文書管理サーバ106−2及びそのデータベース105−2、課金サーバ110−2がそれぞれ接続されている。また、オフィス10内のLAN107とオフィス20内のLAN108とはプロキシサーバ103−1、103−2を介してインターネット104に接続されている。
かかる構成を備える画像処理システムにおいて、検索対象となる登録画像の格納場所は特に限定されないものとする。MFP100内の記憶装置(後述)に格納されていても、マネージメントPC101内のハードディスク(不図示)に格納されていても、また、文書管理サーバ106−1のデータベース(105−1)に格納されていてもよい。ただし、当該格納された登録画像を検索できるように格納場所はLAN107または108を介して外部からアクセス可能な状態になっているものとする。
また、本発明にかかる情報処理方法(検索機能)は、図1に示す画像処理システム内の任意の装置上で実現可能であるものとする。例えば、MFP100内のデータ処理装置(後述)が当該検索機能を備えていても、マネージメントPC101が検索機能を備えていても、また、文書管理サーバ106−1が検索機能を備えていてもよい。
MFP100は、紙文書の画像読み取り処理と読み取った画像信号に対する画像処理の一部を担当し、画像信号はLAN109を用いてマネージメントPC101に入力される。マネージメントPCは通常のPCであり、内部に画像記憶手段、画像処理手段、表示手段、入力手段を有するが、その一部がMFP100に一体化して構成されている。
図2はMFP100の構成図である。図2においてオートドキュメントフィーダー(以降、ADFと記す)を含む画像読み取り部200は束状の或いは1枚の紙文書(原稿)を図示しない光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスター状の画像信号を600DPIの密度のイメージ情報として得る。通常の複写処理の場合はこの画像信号をデータ処理装置205で記録信号に変換し、複数枚の複写の場合には記録装置202に一ページ分の記録データを一旦記憶保持した後、記録装置202に順次出力して紙上に画像を形成する。
また、クライアントPC102から送信されるプリントデータはLAN107及びネットワークIF204を経てデータ処理装置205で記録可能なラスターデータに変換した後、記録装置202により紙上に記録画像を形成する。MFP100への操作者の指示は、MFP100に装備されたキー操作部(入力装置203)またはマネージメントPC101のキーボード及びマウスを介して行われ、これら一連の動作はデータ処理装置205内の図示しない制御部で制御される。
一方、操作入力の状態表示及び処理中の画像データの表示は表示装置206で行われる。なお、記憶装置201はマネージメントPC101からも制御され、これらMFP100とマネージメントPC101とのデータの授受及び制御はネットワークIF207および直結したLAN109を介して行われる。
[処理概要]
次に、図1に示す画像処理システムにおける、本発明にかかる情報処理方法による処理を含む画像処理の全体概要について、図3および図4を用いて説明する。
なお、説明を簡単にするために、以降では、登録画像を備えるデータベースはマネージメントPC内のハードディスク(不図示)において構築されているものとし、また、本発明にかかる情報処理方法はマネージメントPC101およびMFP100が一体となって動作することで実現されるものとする。
(検索用インデックス生成)
図3は、ファイル検索用インデックス生成処理の流れを示すフローチャートである。まず、原本としてインデックス生成対象文書を入力する(ステップS301)。この原本は、印刷物を画像読み取り部200から入力し、それをビットマップ化したもの(ビットマップ画像)でも良いし、文書編集アプリケーションプログラムを利用して作成された電子データでもよいし、また、クライアントPC102のハードディスクやCDドライブ、DVDドライブ、FDDドライブなどの記憶媒体に格納されたアプリケーションプログラム固有の形式による電子データでもよい。なお、この原本は、ユーザの操作によって、データベースにおけるカテゴリ別のフォルダに格納されるものとする。例えば、スポーツ記事や製品パンフレットやビジネス書類などのジャンル(カテゴリ)毎に、別々のフォルダに格納しておくことにより、文書管理を行うことが容易になる。
ビットマップ画像ではないアプリケーションデータの場合(ステップS302で「No」の場合)、ステップS303に分岐し、マネージメントPC101のCPUでラスタライジングを行う。ラスタライジングとは、アプリケーションデータを解析し、画像データを生成する処理のことであり、一般に印刷イメージの生成の際に広く行われる処理である。
次に、ブロックセレクション(領域分割処理)を行う(ステップS304)。ステップS304においては、文字/線画部分とハーフトーンの画像部分とに領域を分離し、文字部分は更に段落で塊としてまとまっているブロック毎に、あるいは、線で構成された表ないし図形ごとに分離し各々セグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、いわゆるブロック毎に独立したオブジェクトに分割する。さらに文字ブロックについては、OCR処理を行う(ステップS305)。
次に、入力画像中に付加情報として記録された2次元バーコード、或いはURLに該当するオブジェクトを検出し、URLについてはOCRで文字認識することで、2次元バーコードについては該マークを解読することで、それぞれ該原稿のオリジナル電子ファイルが格納されている記憶装置内のポインタ情報を検出する(ステップS306)。なお、ポインタ情報を付加する手段としては、他に文字と文字の間隔に情報を埋め込む方法やハーフトーンの画像に埋め込む方法等、直接可視化されない、いわゆる電子透かしによる方法等であってもよい。
ステップS306においてポインタ情報が検出されなかった場合には、ステップS307に分岐し、上記で述べたいずれかの方法でポインタ情報を埋め込む。ただし、検索処理においてポインタ情報の埋め込みは必須の処理ではない。
次に、画像部分として分割されたオブジェクトから画像検索用インデックスを生成する(ステップS308)。ここでは、画像検索に必要な画像の特徴量、例えば平均色を記録する。また、該画像における色の分布などを特徴量として用いても良い。
次に、文字部分として分割されたオブジェクトから概念検索用インデックスを生成する(ステップS309)。後述する概念検索では、入力された文章の意味や文脈を解析し、その内容に関連する文書をピックアップする。このため、通常の検索と異なり、明確なキーワードが分からない場合でも文書を検索することができるようになる。概念検索インデックス作成処理に使う文字は、原本がビットマップデータの場合はステップS305で文字認識したものを、アプリケーションデータの場合は、アプリケーションに格納されている文字をそれぞれ入力とする。
次に、全文検索用インデックスを生成する(ステップS310)。全文検索用インデックス作成処理に使う文字は、上記概念検索インデックス作成処理において用いられるのと同様の文字である。
次に、ステップS311では、各カテゴリの特徴(単語の出現頻度等)を学習し、分類用特徴ベクトルを生成する。各カテゴリフォルダに格納されるインデックス生成対象文書の特徴(単語の出現頻度等)を学習し、各カテゴリフォルダの分類用特徴ベクトルを生成・更新する。このように各カテゴリのフォルダの特徴を予め抽出しておくことで、後述する図4のS409でベクトル化された入力画像をS411で格納する際に、S410で格納先としてのお奨めフォルダ候補を提示できるようになる。
そして、作成したインデックス情報を格納する(ステップS312)。格納先は、図1においてオフィス10或いは20のLAN107、108に接続された文書管理サーバ106−1、106−2内のデータベース105−1、105−2内、或いはMFP100自体が有する記憶装置201等であってもよいが、本実施形態では、マネージメントPC101内のハードディスクに格納することとする。
(類似原本検索および登録)
次に図4を用いて類似原本検索処理および登録処理について説明する。はじめに、図2のMFP100の画像読み取り部200を動作させ1枚の原稿をラスター状に走査し、600DPI−24ビットの画像信号を得る。そして、該画像信号に対してデータ処理装置205にて前処理を施し、記憶装置201に1ページ分の画像データとして保存する(ステップS401)。もしくは、アプリケーションデータとして蓄積されたオリジナル電子ファイルをラスタライジングして600DPI−24ビットの画像信号を得て、該画像信号に対してデータ処理装置205にて前処理を施し記憶装置201に1ページ分の画像データとして保存する(ステップS401)。
マネージメントPC101のCPUは該格納された画像信号を、文字/線画部分とハーフトーンの画像部分とに領域分離し、文字/線画部分については更に段落で塊としてまとまっているブロック毎に、或いは、線で構成された表、図形に分離し各々セグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、ブロック毎に独立したオブジェクトに分割する(ステップS402)。
文字ブロックについては、OCR処理を行う(ステップS403)。このとき入力画像中に付加情報として記録された2次元バーコード、或いはURLに該当するオブジェクトを検出し、URLについてはOCRで文字認識することで、2次元バーコードについては、該マークを解読することで、それぞれ該原稿のオリジナル電子ファイルが格納されている記憶装置内のポインタ情報を検出する(ステップS404)。なお、ポインタ情報を付加する手段としては、他に文字と文字の間隔に情報を埋め込む方法やハーフトーンの画像に埋め込む方法等、直接可視化されない、いわゆる電子透かしによる方法であってもよい。
ポインタ情報が検出された場合(ステップS405の「YES」の場合)、ステップS418に分岐し、ポインタで示されたアドレスからオリジナル電子ファイルを検索する。本実施形態ではオリジナル電子ファイルはマネージメントPC101内のハードディスクに格納されており、ステップS404で得られたアドレス情報に従って当該ハードディスク内が検索される。なお、オリジナル電子ファイルの格納場所はこれに限られるものではなく、図1においてクライアントPC102内のハードディスク内、或いはオフィス10或いは20のLAN107、108に接続された文書管理サーバ106−1、106−2内のデータベース105−1、105−2内、或いはMFP100自体が有する記憶装置201のいずれであってもよい。ステップS418でオリジナル電子ファイルが見つからなかった場合、見つかったがPDFあるいはtiffに代表されるいわゆるイメージファイルであった場合、或いはポインタ情報自体が存在しなかった場合(ステップS405で「NO」の場合)はステップS406に分岐する。
ステップS406では、データベース上のオリジナル電子ファイルを検索するため、先ず、ステップS403でOCRされた文字ブロックに対して、単語に分割し、重要語抽出を行う。重要語抽出とは、文字部分を解析し、単語の出現頻度等から重要語として決定した単語を、定められた個数だけ抽出する機能である。この重要語を全文検索の検索キーとして入力する。また、文字ブロックから文を抽出し、文章中の先頭文は文書全体の説明にあたる等の性質を利用して要約生成を行う。生成された要約文は概念検索の検索キーとして入力する。さらに画像ブロックに対してはイメージデータとして個別の画像ファイルとして画像検索を行う。次にデータベース上の各オリジナル電子ファイルと類似度を調べ、オリジナル電子ファイルを検索する。本発明は、オブジェクト毎に類似度を求め、オブジェクト毎の類似度をそのオブジェクトのファイル内占有率に応じてファイル全体の類似度へ反映させることを特徴とするものである。つまり、ファイル内で占めている割合の大きいオブジェクトの類似度が、ファイル全体の類似度へより大きく反映されることで、いかなるフォーマットのファイルにも適応的に対応することを可能にする。また、全ての領域に対し類似度を算出できるため、部分一致した文書を見つけ出すことも可能である。
ステップS406における検索処理の結果、類似度の高いオリジナル電子ファイルが見つかった場合、サムネイル等を表示(ステップS407)し、複数のオリジナル電子ファイルの中から操作者の選択が必要なら操作者の入力操作よってオリジナル電子ファイルの特定を行う。
なお、候補が1ファイルの場合、自動的にステップS408からステップS413に分岐し、格納アドレスを通知するようにしてもよい。ステップS406の検索処理でオリジナル電子ファイルが見つからなかった場合、或いは、見つかったがPDFあるいはtiffに代表されるいわゆるイメージファイルであった場合には、ステップS408からステップS409に分岐する。
ステップS409では、イメージからベクトルデータへの変換処理を行う。例えば、ステップS403でOCR処理された文字ブロックに対して、更に文字のサイズ、スタイル、字体を認識し、予め文字種別(フォント種別、スタイル)ごとに用意しておいたアウトラインデータを用いて、前記OCR結果の文字コードをベクトル化するものとする。なお、文字ブロックについては、文字イメージの輪郭を識別し、文字イメージの輪郭に沿ったアウトラインベクトルを抽出することによって文字領域をベクトル化し、且つ、その際、OCR処理結果は各文字のベクトルデータに対応する文字コードとして保持しておくようにしてもよい。また、線で構成される表、図形ブロックに対してはアウトライン化し、表など図形形状が認識できるものは、その形状を認識する。さらに、画像ブロックに対してはイメージデータとして個別のJPEGファイルとして処理する。これらのベクトル化処理は各オブジェクト毎に行い、更に各オブジェクトのレイアウト情報を保存して、例えば、ベクトルデータをエンベットしたrtf(Rich Text Format)形式に変換する。このようにして生成されたrtf形式のファイルを扱うことが可能なアプリケーションで読み込むことで、文章は勿論のこと、図形やイメージデータについても編集できる状態に復元することができる。なお、変換するアプリ用データファイルは、ベクトルデータのオブジェクトを埋め込み可能なrtf形式に限るものではなく、例えば、SVG(Scarable Vector Grafics)フォーマットなどのその他のファイル形式に変換するようにしてもよい。
続いて、ステップS410で分類支援機能を起動する。分類支援機能とは、文書を格納する際、どのカテゴリのフォルダーに分類して格納するかを支援する機能である。この機能によって、使用者の文書登録に関わる作業量を大幅に軽減することができる。文書の文字部分から分類用特徴ベクトルを生成し、インデックスに格納されている分類用特徴ベクトルとの類似度判定によって、類似度が上位のカテゴリフォルダから順番に表示する。このように登録先のお奨めカテゴリフォルダ候補を表示することで使用者は容易に登録処理を行えるようになる。なお、使用者は文書の登録先として表示されたカテゴリフォルダから選ぶこともできるし、表示されなかったカテゴリフォルダ、あるいは新規カテゴリフォルダを作成して、電子ファイルとして変換されたデータをマネージメントPC101内のハードディスクに格納することができる(ステップS411)。
ステップS409においてベクトル化した入力画像は、以降同様の検索処理を行う際にオリジナル電子ファイルとして検索出来るように、ステップS412において、先に述べたS308〜S311と同様のインデックス生成処理を行い、インデックス情報を生成して検索用インデックスファイルに追加する。
ステップS418でポインタ情報からオリジナル電子ファイルが特定できた場合、および、S408の検索処理でオリジナル電子ファイルが特定出来た場合、および、S409〜412でベクトル化により電子ファイルに変換して格納した場合には、ステップS413において、操作者が直接オリジナル電子ファイルを特定可能にする為に、該オリジナル電子ファイルの格納アドレスを操作者に通知する。
更に、ステップS414で、操作者が行いたい処理が「記録」であると判断されれば、ステップS415に分岐し、ポインタ情報をイメージデータとしてファイルに付加する。
このようにして得られた電子ファイル自体を用いて、例えば文書の加工、蓄積、伝送、記録をステップS416で行うことが可能になる。これらの処理はイメージデータを用いる場合に比べて、情報量が削減され、蓄積効率が高まり、伝送時間が短縮され、又記録表示する際には高品位なデータとして非常に優位となる。
ステップS417では、課金サーバ110−1または110−2に蓄積されている、文書ごとに定義された著作権ロイヤリティ情報にもとづいて、検索結果の表示方法・アクセス方法、使用者処理方法に応じた課金処理が行われる。
以下、各処理ブロックについて詳細に説明する。先ずステップS402に示すブロックセレクション処理について説明する。
[ブロックセレクション処理(領域分割処理)]
ステップS402のブロックセレクション処理を図5を用いて説明する。図5(A)はステップS401で読み取った一頁のイメージデータの一例であり、図5(B)は当該イメージデータを各オブジェクト毎の塊として認識し、該ブロック各々について文字/図画/写真/線/表等の属性を判定し、異なる属性を持つ領域に分割した様子を示したものである。
ブロックセレクション処理の実施例を以下に説明する。先ず、入力画像を白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化されうる部分を文字領域(TEXT)、扁平な画素塊を線領域(LINE)、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域(TABLE)、不定形の画素塊が散在している領域を写真領域(PHOTO)、それ以外の任意形状の画素塊を図画領域(PICTURE)、などとする。
ブロックセレクション処理で得られた各ブロックに対するブロック情報は以降に説明するベクトル化、或いは検索処理の為の情報として用いる。
[ポインタ情報の検出]
次に、オリジナル電子ファイルの格納位置をイメージ情報から抽出する為のポインタ情報検出処理(ステップS404)について説明する。
図6は入力画像中に付加された2次元バーコード(QRコードシンボル)を復号して、データ文字列を出力する過程を示すフローチャートである。2次元バーコードが付加された原稿の一例を図7に示す。
まず、データ処理装置205内のページメモリに格納された原稿701を表すイメージ画像をCPU(不図示)で走査して、先に説明したブロックセレクション処理の結果から所定の2次元バーコードシンボル703の位置を検出する(ステップS600)。QRコードの位置検出パターンは、シンボルの4隅のうち3隅に配置される同一の位置検出要素パターンから構成される。
次に、位置検出パターンに隣接する形式情報を復元し、シンボルに適用されている誤り訂正レベルおよびマスクパターンを得る(ステップS601)。
シンボルの型番を決定した(ステップS602)後、形式情報で得られたマスクパターンを使って符号化領域ビットパターンをXOR演算することによってマスク処理を解除する(ステップS603)。
尚、モデルに対応する配置規則に従い、シンボルキャラクタを読み取り、メッセージのデータ及び誤り訂正コード語を復元する(ステップS604)。
復元されたコード上に、誤りがあるかどうかの検出を行い(ステップS605)、誤りが検出された場合には、ステップS606に分岐し、これを訂正する。
誤り訂正されたデータのモード指示子および文字数指示子に基づいて、データコード語をセグメントに分割する(ステップS607)。
最後に、仕様モードに基づいてデータ文字を復号し、結果を出力する(ステップS608)。
尚、2次元バーコード内に組み込まれたデータは、対応するオリジナル電子ファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で、或いは、対応するオリジナル電子ファイルへのURLで構成される。
本実施形態ではポインタ情報が2次元バーコードにより付与された原稿701について説明したが、直接文字列でポインタ情報が記録される場合は所定のルールに従った文字列のブロックを先のブロックセレクション処理で検出し、該ポインタ情報を示す文字列の各文字を文字認識することで、直接、オリジナル電子ファイルのアドレス情報を得ることが可能である。
又、図7の原稿701の文字ブロック702、或いは703の文字列に対して隣接する文字と文字の間隔等に視認し難い程度の変調を加え、該文字間隔に情報を埋め込むことでもポインタ情報を付与できる。所謂透かし情報は、後述する文字認識処理を行う際に各文字の間隔を検出すれば、ポインタ情報が得られる。又、自然画705の中に電子透かしとしてポインタ情報を付加することも可能である。
[ポインタ情報によるオリジナル電子ファイル検索]
次に、図4のステップS405およびステップS418に示す、ポインタ情報からのオリジナル電子ファイルの検索処理について図8のフローチャートを使用して説明する。
まず、ポインタ情報に含まれるアドレスに基づいて、ファイルサーバを特定する(ステップS800)。なお、本実施形態においては、ファイルサーバとはマネージメントPC101内のハードディスクを指すが、オリジナル電子ファイルの格納先がクライアントPC102や、文書管理サーバ106−1、106−2内のデータベース105−1、105−2や、MFP100内の記憶装置201であった場合には、それらを指す。また、アドレスとはURLや、サーバ名とファイル名からなるパス情報である。
ファイルサーバが特定できたら、ファイルサーバに対してアドレスを転送する(ステップS801)。ファイルサーバは、アドレスを受信すると、該当するオリジナル電子ファイルを検索する(ステップS802)。オリジナル電子ファイルが存在しない場合(ステップS803で「NO」の場合)には、MFP100に対してその旨通知する。
オリジナル電子ファイルが存在した場合(ステップS803で「YES」の場合)には、図4で説明したように、オリジナル電子ファイルのアドレスを通知(ステップS413)すると共に、使用者の希望する処理が画像ファイルデータの取得であれば、MFP100に対してオリジナル電子ファイルを転送する(ステップS808)。
[OCR処理]
次にステップS403におけるOCR処理(文字認識処理)について説明する。
文字認識部では、文字単位で切り出された画像に対し、パターンマッチの一手法を用いて認識を行い、対応する文字コードを得る。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、たとえば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
ブロックセレクション処理(ステップS402)で抽出された文字領域に対して文字認識を行う場合は、まず該当領域に対し横書き、縦書きの判定をおこない、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き、縦書きの判定は、該当領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことでおこなう。縦書きの文字領域に対しては、水平と垂直を逆にすればよい。尚、この時文字のサイズが検出できる。
[ファイル検索]
次に、図4のステップS406に示すファイル検索処理の詳細について図10を用いて説明する。
ファイル検索は、前述したブロックセレクション処理(ステップS402)により分割された各ブロック情報を利用して行う。具合的には、各ブロックの属性とファイル中のブロック座標情報との比較、すなわちレイアウトによる比較と、ファイル内の各ブロックの属性により異なる比較方法が適用されるブロック毎の内部情報比較とを複合した複合検索を用いる。
図10は、図4のステップS406でブロックセレクション処理された入力ファイルを、既に格納されているオリジナル電子ファイルの検索用インデックスと順次比較し、一致するオリジナル電子ファイルを検索するフローチャートである。まず、データベースよりオリジナル電子ファイルへアクセスする(ステップS1001)。入力ファイルの各ブロックとオリジナル電子ファイルの各ブロックとを比較し、入力ファイルのブロック毎にオリジナル電子ファイルのブロックとの類似率を求める(ステップS1002)。
ここで、図5、図9、図11及び図12を用いてステップS1002のブロック比較について詳説する。図5を入力ファイルとし、図9にオリジナル電子ファイルの例を示す。図9のオリジナル電子ファイルは、ブロックB’1〜B’9に分割されかつそれぞれがベクトル化処理されている。図11は、入力ファイル中の一つのブロックをオリジナル電子ファイルと比較し、類似率を算出するフローチャートである。ブロック毎に類似率を算出する際、まず入力ファイルの該ブロックとレイアウト上一致すると推定されるオリジナル電子ファイルの対象ブロックを選出する。この処理においては、入力ファイルの複数のブロックに対し、オリジナル電子ファイルの対象ブロックが重複されて選出されてもよい。次に該ブロックと対象ブロックとのレイアウト情報の類似率を求める。ブロックの位置、サイズ、属性を比較し(ステップS1102、1103、1104)、その誤差からレイアウトの類似率を求める。次にブロック内部の比較を行うが、ブロック内部を比較する際は同じ属性として比較するため、属性が異なる場合は片方のブロックを一致する属性へ再ベクトル化するなどの前処理を行う。前処理により同じ属性として扱われる入力ファイルのブロックとオリジナル電子ファイルの対象ブロックについて、ブロックの内部比較を行う(ステップS1105)。ブロック内部比較では、ブロックの属性に最適な比較手法をとるため、属性によりその比較手法は異なる。図12はブロックごとの比較方法を記述したフローチャートである。例えば、前述したブロックセレクション処理により、ブロックはテキスト、写真、表、線画などの属性に分割される。処理するブロックが写真画像ブロックの場合(ステップS1201の「YES」の場合)、画像より抽出される特徴ベクトルに基づいて特徴空間上の誤差より類似率が算出される(ステップS1202)。ここでいう特徴ベクトルとは、色ヒストグラムや色モーメントのような色に関する特徴量、共起行列、コントラスト、エントロピ、Gabor変換等で表現されるテクスチャ特徴量、フーリエ記述子等の形状特徴量など複数挙げられ、このような複数の特徴量のうち最適な組み合わせを用いる。検索結果(類似率順に並んだ候補リスト)は、所定の記憶装置、例えばマネージメントPC101の記憶装置に記憶される(ステップS1203)。
テキストブロックの場合(ステップS1204の「YES」の場合)は、OCR処理により文字コードが判別されているため、ステップS1205では要約文生成を行い、概念検索を行う。ステップS1206では、検索結果を記憶装置に記憶する。続いてステップS1207において重要語抽出を行い、全文検索を行う。検索結果を記憶装置に記憶する(ステップS1208)。
以上より、ブロック位置、サイズ、属性、ブロック内部の類似率を算出し、各類似率を合計することで入力ファイルの該ブロックに対しその類似率を算出することが可能であり、該ブロック類似率を記録する。入力ファイルのブロック全てについて、一連の処理を繰り返す。求められたブロック類似率は、全て統合することで、入力ファイルの類似率を求める(ステップS1003)。
次に、総合類似度算出処理(ステップS1003)について説明する。図5の入力ファイルのブロックに対し、ブロック毎の類似率がn1、n2、・・・と算出されたとする。このときファイル全体の総合類似率Nは、以下の式で表現される。
N=w1×n1+w2×n2+・・・+γ ・・・(1)
ここで、w1、w2、・・・は、各ブロックの類似率を評価する重み係数である。γは補正項であり、例えば、図9のオリジナル電子ファイルの入力ファイルに対する対象ブロックとして選出されなかったブロックの評価値などとする。重み係数w1、w2・・・は、ブロックのファイル内占有率により求める。例えばブロック1のサイズをS1とすると、ブロック1の占有率w1は、
w1=S1/(全ブロックのサイズの和) ・・・(2)
として算出できる。このような占有率を用いた重み付け処理により、ファイル内で大きな領域を占めるブロックの類似率がよりファイル全体の類似率に反映されるようになる。
以上、検索の結果、類似率が閾値Thより高い場合には、候補として保存され(ステップS1005)、オリジナル電子ファイルをサムネイル等で表示する(ステップS407)。複数の中から操作者の選択が必要なら操作者の入力操作によってオリジナル電子ファイルの特定を行う。
[アプリデータへの変換処理]
ところで、一頁分のイメージデータをブロックセレクション処理(ステップS402)し、ベクトル化処理(ステップS408)した結果は図13に示す様な中間データ形式のファイルとして変換されているが、このようなデータ形式はドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。
図13はDAOFのデータ構造を示す図である。図13において、1301はHeaderであり、処理対象の入力ファイルに関する情報が保持される。レイアウト記述データ部1302では、入力ファイル中のTEXT(文字)、TITLE(タイトル)、CAPTION(キャプション)、LINEART(線画)、EPICTURE(自然画)、FRAME(枠)、TABLE(表)等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。文字認識記述データ部1303では、TEXT、TITLE、CAPTION等のTEXTブロックを文字認識して得られる文字認識結果を保持する。表記述データ部1304では、TABLEブロックの構造の詳細を格納する。画像記述データ部1305は、PICTUREやLINEART等のブロックのイメージデータを入力ファイルから切り出して保持する。
このようなDAOFは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、所謂一般の文書作成アプリケーションで個々のオブジェクトを再利用することは出来ない。そこで、次に、このDAOFからアプリデータに変換する処理(ステップS409)について詳説する。
図14は、アプリデータに変換する処理(ステップS409)の詳細な流れを示すフローチャートである。
ステップS1400では、DAOFデータの入力を行う。ステップS1401では、アプリデータの元となる文書構造ツリー生成を行う。ステップS1402では、文書構造ツリーを元に、DAOF内の実データを流し込み、実際のアプリデータを生成する。
図15は、文書構造ツリー生成処理(ステップS1401)の詳細フローを示す図であり、図16は、文書構造ツリーの説明図である。全体制御の基本ルールとして、処理の流れはミクロブロック(単一ブロック)からマクロブロック(ブロックの集合体)へ移行する。
以後ブロックとは、ミクロブロック及びマクロブロック全体を指す。ステップS1501では、ブロック単位で縦方向の関連性を元に再グループ化する。スタート直後はミクロブロック単位での判定となる。
ここで、関連性とは、距離が近い、ブロック幅(横方向の場合は高さ)がほぼ同一であることなどで定義することができる。
また、距離、幅、高さなどの情報はDAOFを参照し、抽出する。図16(A)は実際のページ構成、(B)はその文書構造ツリーである。ステップS1501の処理の結果、T3、T4、T5が一つのグループV1として生成され、T6、T7が一つのグループV2が同じ階層のグループとしてまず生成される。
ステップS1502では、縦方向のセパレータの有無をチェックする。セパレータは、例えば物理的にはDAOF中でライン属性を持つオブジェクトである。また論理的な意味としては、アプリ中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。
ステップS1504では、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。ここで、縦方向のグループ長がページ高さ(該ページに存在する複数のブロックの最上端と最下端の距離)となっている場合は、文書構造ツリー生成は終了する。
図16の場合は、グループV1,V2には、セパレータもなく、グループ高さはページ高さではないので、ステップS1504に進む。ステップS1504では、ブロック単位で横方向の関連性を元に再グループ化する。ここもスタート直後の第一回目はミクロブロック単位で判定を行うことになる。なお、関連性及びその判定情報の定義は、縦方向の場合と同じである。
図16の場合は、T1、T2でH1が、V1、V2でH2が、それぞれV1、V2の1つ上の同じ階層のグループとして生成される。
ステップS1505では、横方向セパレータの有無をチェックする。図16では、S1があるので、これをツリーに登録し、H1、S1、H2という階層が生成される。
ステップS1506では、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。ここで、横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成は終了する。そうでない場合は、ステップS1501に戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返す。
図16の場合は、分割幅がページ幅になっているので、ここで終了し、最後にページ全体を表す最上位階層のV0が文書構造ツリーに付加される。文書構造ツリーが完成した後、その情報を元にステップS1402においてアプリデータの生成を行う。
図16の場合は、具体的には、以下のようになる。すなわち、H1は横方向に2つのブロックT1とT2があるので、2カラムとし、T1の内部情報(DAOFを参照、文字認識結果の文章、画像など)を出力後、カラムを変え、T2の内部情報出力、その後S1を出力する。
H2は横方向に2つのブロックV1とV2があるので、2カラムとして出力、V1はT3、T4、T5の順にその内部情報を出力、その後カラムを変え、V2のT6、T7の内部情報を出力する。以上によりアプリデータへの変換処理が行える。
[ポインタ情報の付加]
次に、ステップS415に示す、ポインタ情報付加処理について説明する。処理すべき文書が検索処理で特定された場合、あるいはベクトル化によってオリジナル電子ファイルが再生できた場合であって、該文書を記録処理する場合においては、紙への記録の際にポインタ情報を付与することで、この文書を用いて再度各種処理を行う際に簡単にオリジナル電子ファイルを取得することができるようになる。
図17はポインタ情報としてのデータ文字列を2次元バーコード(QRコードシンボル:JIS X0510)701にて符号化して画像中に付加する過程を示すフローチャートである。
2次元バーコード内に組み込むデータは、対応するオリジナル電子ファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するオリジナル電子ファイルへのURLや、対応するオリジナル電子ファイルの格納されているデータベース内あるいはMFP100自体が有する記憶装置内で管理されるファイルID等で構成される。
まず、符号化する種々の異なる文字を識別するため、入力データ列を分析する。また、誤り検出及び誤り訂正レベルを選択し、入力データが収容できる最小型番を選択する(ステップS1700)。
次に、入力データ列を所定のビット列に変換し、必要に応じてデータのモード(数字、英数字、8ビットバイト、漢字等)を表す指示子や、終端パターンを付加する。さらに所定のビットコード語に変換する(ステップS1701)。
この時、誤り訂正を行うため、コード語列を型番および誤り訂正レベルに応じて所定のブロック数に分割し、各ブロック毎に誤り訂正コード語を生成し、データコード語列の後に付加する(ステップS1702)。
ステップS1702で得られた各ブロックのデータコード語を接続し、各ブロックの誤り訂正コード語および必要に応じて剰余コード語を後続する(ステップS1703)。
次に、マトリクスに位置検出パターン、分離パターン、タイミングパターンおよび位置合わせパターン等とともにコード語モジュールを配置する(ステップS1704)。
更に、シンボルの符号化領域に対して最適なマスクパターンを選択して、マスク処理パターンをステップS1704で得られたモジュールにXOR演算により変換する(ステップS1705)。
最後に、ステップS1705で得られたモジュールに形式情報および型番情報を生成して、2次元コードシンボルを完成する(ステップS1706)。
上述した、アドレス情報の組み込まれた2次元バーコードは、例えば、クライアントPC102からオリジナル電子ファイルをプリントデータとして送信し、記録装置202により紙上に記録画像として形成する場合に、データ処理装置205内で記録可能なラスターデータに変換された後にラスターデータ上の所定の個所に付加されて画像形成される。ここで画像形成された紙を配布されたユーザは、画像読み取り部200で読み取ることにより、前述したステップS404にてポインタ情報からオリジナル電子ファイルの格納場所を検出することができる。
尚、同様の目的で付加情報を付与する手段は、本実施形態で説明した2次元バーコードの他に、例えば、ポインタ情報を直接文字列で文書に付加する方法、文書内の文字列、特に文字と文字の間隔を変調して情報を埋め込む方法、文書中の中間調画像中に埋め込む方法等、一般に電子透かしと呼ばれる各方法が適用できる。
[課金時著作権チェック処理]
次にステップS417に示す課金処理について説明する。本実施形態では、これまでファイルサーバに蓄積されたオリジナル電子ファイルは全て自由にアクセスでき、オリジナル電子ファイル全体、或いはその一部のオブジェクトは全て再利用が可能なことを前提に説明してきた。しかし、処理される入力ファイルの中には、第三者による再利用を制限すべきものがある。そこで、第三者による再利用が制限された入力ファイルが含まれている場合のステップS417における処理について説明する。
ステップS416で、文書の印刷などの処理を行う前に、ポインタ情報からオリジナル電子ファイルを検索した際に特定できたオリジナル電子ファイルについて、課金サーバ110−1、110−2に蓄積されている、文書・オブジェクトごとに定義された著作権ロイヤリティ情報を問い合わせる。著作権ロイヤリティ情報とは、検索結果の表示方法・アクセス方法・使用者処理方法に応じた料金の対応表である。例えば、画像領域の印刷には100円かかり、複製には200円かかる、あるいはテキスト部分は自由に再利用可能であるといった内容が記述されている。
課金サーバ110−1、110−2はそのオリジナル電子ファイルのロイヤリティ情報を調べ、有料の場合には、MFP100に対してユーザID、パスワードの送信を要求する。
MFP100は操作者に対してユーザID、パスワードの入力を促し、入力されたユーザID、パスワードを課金サーバに送信する。
課金サーバ110−1、110−2は送信されたパスワードを照合し、一致した場合にはステップS416の希望する処理(記録などの利用)を許可し、対応する課金決済処理(ステップS417)を行う。なお、課金を行う為の認証の方法は、パスワードによる方法に限定されず、例えば、指紋認証等の一般に広く用いられている生体認証、カードによる認証等全ての認証手段を用いることができる。
又、本実施形態では紙文書に付加されたポインタ情報によりオリジナル電子ファイルを特定した場合の実施例を示したが、図4のステップS406〜S407で示す所謂検索処理でオリジナル電子ファイルを特定した場合においても同様の処理が可能である。
また、図4のステップS409〜412で説明したベクトル化処理に対しても、課金処理を行うことが出来るようにしてもよい。すなわち、紙文書を走査して得られたイメージ情報からベクトル化処理を行うときに有料と設定している場合には、ベクトル化処理を実行する前にユーザに対してベクトル化処理を行うのにかかる費用を提示する。そして支払いの手続き(ユーザID、パスワードの入力)が行われて、認証成功した場合にベクトル化処理を行うことで、使用者から料金を徴収することができる。また、ベクトル化処理を行う際に、ベクトル化処理を行うのにかかる費用とその後の著作権ロイヤリティを管理するのにかかる費用とを合わせて課金するようにしてもよい。
<第2の実施形態>
上記第1の実施形態においては、ファイル検索では要約文を概念検索へ、重要語を全文検索へ代入したが、処理能力の低い環境では要約文、重要語の生成にリソースをさけない場合もある。その場合は、概念検索の検索キーとして文書全体を入力し、全文検索を省略してもよい。
<第3の実施形態>
上記第1の実施形態においては、ポインタ情報を検出・埋め込む過程を入れたが、ポインタ情報の検出を行わずに複合検索処理のみに限っても、本発明の有用性は失われない。
また、上記実施形態によれば、ブロックセレクション前にラスタライズするステップを入れたが、必須ではない。また、インデックス作成は検索時に行わずに、スケジュールして行ってもよい。実施形態では文書を入力するごとに分類ベクトル生成を行っているが、ある程度文書が蓄積されるごとに行ってもよい。
また、実施形態では文書を入力するごとに分類用特徴ベクトル生成を行っているが、ある程度文書が蓄積されるごとに行ってもよい。また、分類用特徴ベクトル生成は文字部分を使用して行ったが、表・画像・など他の属性についても分類用特徴ベクトルを生成し、検索時と同様に領域の面積比によって総合的に分類用特徴ベクトルの生成を行うことも可能である。また、上記実施形態では、ステップS410では、格納先としてお奨めカテゴリフォルダを提示してユーザに選択させるようにしたが、更に自動分類するかどうかの設定ボタンを設け、予めユーザによって自動分類すると設定されていた場合、選択肢を表示せずに第1位のお奨めカテゴリフォルダに自動的に登録するようにしてもよい。
<第4の実施形態>
第1の実施形態のファイル検索では、入力ファイルとデータベースファイルを比較する際、全ての入力ファイルの全てのブロックについて、レイアウト情報とブロックの内部情報とについて比較を行った。本実施形態では、入力ファイルのレイアウトとデータベースファイルのレイアウトとが全く異なる場合、ブロック内部情報の比較処理を省き、検索処理の計算量を軽減する。図18は、本実施形態におけるファイル検索のフローチャートである。まず、データベースよりオリジナル電子ファイルへアクセスする(ステップS1801)。入力ファイルの各ブロックの位置、サイズ、属性とオリジナル電子ファイルの各ブロックとを比較し、その類似率を求め、ファイル全体のレイアウト類似率を求める(ステップS1802)。ステップS1803でレイアウト類似率が所定の閾値より高いかどうか判断し、レイアウト類似率が所定の閾値より低いと判断された場合は、ブロック内部情報比較は行わずにステップS1807に進む。一方、レイアウト類似率が所定の閾値より高いと判断された場合、ステップS1804に進んで、ブロック内部情報の比較を行い、先に求めたレイアウト類似率とブロック内部情報の類似率とにより、ファイル全体の総合類似率を求める。ブロック毎の類似率からの総合類似率の求める手法は、図10のステップS1003と同様の処理であり、説明を省略する。ステップS1805で総合類似率が所定の閾値より高いか判断し、所定の閾値より高ければ当該比較対象のファイルを候補として保存する(ステップS1806)。一方、所定の閾値以下であれば候補にしない。ステップS1807では次の比較対象のデータベースファイルがあれば、ステップS1801に進み、なければ処理を終了する。
ブロック内部情報の類似率を求める処理は、写真ブロックなどの情報量の多いブロックの比較を行なうため、レイアウト情報の比較に比べて、一般的に重い処理となる。よって、レイアウト情報である程度ファイルを絞り込むことで、検索処理量の軽減、処理の高速化が行え、効率よく所望のファイルを検索できる。
<第5の実施形態>
第5の実施形態では、ユーザに文書内の特徴となるブロック領域を指定させたり、比較対象から除くブロックを指定させたり、文書内の特徴を指定させたりすることで、ファイル検索をより高精度に行なう。
図19は検索時、ユーザに検索オプションを指定させるためのユーザインタフェース画面(1901)の例である。入力ファイルはブロックセレクション処理により、複数のブロックに分割されており、入力画面にはファイル上のテキスト、写真、表、線画など各ブロック領域(1911〜1917)が表示される。
ユーザは表示されたブロックの中から、該入力ファイルの特徴となるブロックを選択し、重視するブロックをユーザに指定させることを可能する。このとき選択するブロックは複数であってもよい。例えば、ブロック1914を選択した状態で、ボタン「重視」(1902)を押したとき、ブロック1914を重視した検索処理を行う。この検索処理は、ブロック毎の類似率からファイル全体の類似率を求める演算式(1)において、指定されたブロック1914の重み係数を大きくし、それ以外のブロックの重み係数を小さくすることで実現する。「重視」ボタン(1902)を複数回押せば、選択されたブロックの重み係数を更に大きくし、よりブロックを重視した検索が行えるようにする。
また、除外ボタン(1903)を押せば、選択されたブロック1914を省いた状態で検索処理を施す。例えば、誤ったブロックを自動抽出してしまった場合などには、ユーザが該ブロックを除外することで、無駄な検索処理を省略し、かつ誤った検索結果となることを防止できる。なお、除外する場合は、演算式(1)の該当ブロックの重み係数をゼロとすればよい。
また、詳細設定ボタン(1904)によりブロックの属性の変更を実現可能とし、ブロックの属性を正しい属性に修正できるようにすることで、より正確な検索できる。また、詳細設定ボタン1904では、ユーザにより、ブロックの検索優先する重みを細かく調節可能とする。このように、検索する際、ユーザが特徴となるブロックを指定、設定させることで、検索の最適化が行える。
一方、ファイルによっては、レイアウトが特殊な場合も考えられる。このようなファイルに関しては、レイアウト優先ボタン(1905)を選択することにより、レイアウトを重視したファイル検索を可能とする。この場合、レイアウトの類似率の結果をより重視するように、重み付けすることで実現する。
また、テキスト優先ボタン(1906)が選択されると、テキストブロックのみを用いて検索を実行し、処理の軽減を図れるようにする。
このように、ユーザに画像の特徴を選択させることで、ファイルの特徴を重視した検索が行える。
<他の実施形態>
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明にかかる情報処理方法を実現する画像処理システムの構成を示す図である。 MFP100の構成図である。 検索用インデックス作成処理の流れを示すフローチャートである。 類似原本検索処理および登録処理の流れを示すフローチャートである。 入力原稿の一例を示す図である。 ポインタ情報検出処理の流れを示すフローチャートである。 ポインタ情報を検出する際に使用する入力原稿の一例を示す図である。 ポインタ情報にもとづいてファイル検索を行う場合の処理の流れを示すフローチャートである。 図5に示す入力原稿をブロックセレクションした結果を示す図である。 類似度にもとづくファイル検索処理を行う場合の処理の流れをフローチャートである。 類似度にもとづくファイル検索処理のブロック比較処理の詳細を示したフローチャートである。 ブロック比較処理のブロック内比較処理の詳細を示したフローチャートである。 DAOFのデータ構造を示す図である。 アプリデータへの変換処理を示したフローチャートである。 文書構造ツリー生成処理を示したフローチャートである。 文書構造ツリー構造を示した図である。 ポインタ情報埋め込み処理を示したフローチャートである。 第4の実施形態におけるファイル検索処理のフローチャートである。 検索オプションを指定させるためのユーザインタフェース画面を示す図である。

Claims (32)

  1. 入力される文書画像に類似する画像データを検索する情報処理装置であって、
    前記入力される文書画像を属性ごとに複数の領域に分割する分割手段と、
    前記分割された領域ごとに、前記属性に適した検索手段を用いて、類似度を算出する類似度算出手段と、
    前記分割された領域ごとに算出された類似度に重み付けをした総合類似度を算出する総合類似度算出手段と
    を備えることを特徴とする情報処理装置。
  2. 前記検索手段は、
    前記分割手段により分割された領域のうち、テキスト領域から文字認識により抽出されたテキストデータに基づいて全文検索する手段と、
    前記テキストデータに基づいて概念検索する手段と、
    前記分割手段により分割された領域のうち、イメージ領域から抽出された特徴量に基づいてイメージ検索する手段と
    を備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記総合類似度算出手段は、
    前記入力される文書画像における前記分割された各領域の占有率に基づいて、重み付けを行うことを特徴とする請求項1に記載の情報処理装置。
  4. 前記画像データごとの著作権ロイヤリティに関する情報を格納したサーバと通信する通信手段を更に備え、
    前記画像データについて、前記著作権ロイヤリティに関する情報を取得可能であることを特徴とする請求項1に記載の情報処理装置。
  5. 前記著作権ロイヤリティに関する情報があった場合には、前記サーバからの許可を受けない限り、前記画像データについての処理が行われないことを特徴とする請求項4に記載の情報処理装置。
  6. ユーザに対して、前記著作権ロイヤリティに基づく課金処理を実行する課金手段を更に備えることを特徴とする請求項4に記載の情報処理装置。
  7. 前記入力される文書画像をベクトルデータに変換する際の料金をユーザに対して課金する課金手段と、
    前記課金手段により課金された料金の支払い手続きが行われた場合に、前記入力される文書画像をベクトルデータに変換するベクトルデータ変換手段と、
    前記ベクトルデータに変換された文書画像を格納する格納手段と
    を更に有することを特徴とする請求項1に記載の情報処理装置。
  8. 前記課金手段は、前記ベクトルデータに変換された文書画像の著作権ロイヤリティを管理する際の料金を課金することを特徴とする請求項7に記載の情報処理装置。
  9. 前記入力される文書画像をベクトルデータに変換するベクトルデータ変換手段と、
    前記ベクトルデータに変換された文書画像の特徴に基づいて、格納先の候補カテゴリを出力する候補カテゴリ出力手段と
    を更に備えることを特徴とする請求項1に記載の情報処理装置。
  10. 前記候補カテゴリ出力手段により出力された候補カテゴリの中から、格納先のカテゴリをユーザに選択させるカテゴリ選択手段と、
    前記カテゴリ選択手段で選択されたカテゴリに前記ベクトルデータに変換された文書画像を格納する格納手段と
    を更に備えることを特徴とする請求項9に記載の情報処理装置。
  11. 前記候補カテゴリ出力手段により出力された第1位の候補カテゴリに対し、前記ベクトルデータに変換された文書画像を自動的に格納する格納手段を更に備えることを特徴とする請求項9に記載の情報処理装置。
  12. 前記ベクトルデータ変換手段は、前記総合類似度算出手段の算出結果に基づいて前記文書画像に対応するオリジナルデータファイルが見つからなかった場合に、前記文書画像をベクトルデータに変換することを特徴とする請求項9に記載の情報処理装置。
  13. 前記ベクトルデータ変換手段は、前記文書画像に対応するオリジナルデータファイルがイメージファイルであった場合に、前記文書画像をベクトルデータに変換することを特徴とする請求項9に記載の情報処理装置。
  14. 更に、前記入力される文書画像と比較対象の画像データとのレイアウト類似度を算出し、当該算出されたレイアウト類似度が所定の閾値以上の前記比較対象画像データについては前記類似度算出手段及び前記総合類似度算出手段による処理を実行するよう制御し、当該算出されたレイアウト類似度が所定の閾値より低い前記比較対象画像データについては前記類似度算出手段及び前記総合類似度算出手段による処理を実行しないように制御する、レイアウト類似度算出手段を有することを特徴とする請求項1に記載の情報処理装置。
  15. 更に、前記分割手段で分割された複数の領域のうちから類似度算出に用いる領域を選択させる選択手段を有し、
    前記類似度算出手段は、前記選択手段で選択された領域に関して、前記属性に適した検索手段を用いて、類似度を算出することを特徴とする請求項1に記載の情報処理装置。
  16. 入力される文書画像に類似する画像データを検索する情報処理方法であって、
    前記入力される文書画像を属性ごとに複数の領域に分割する分割工程と、
    前記分割された領域ごとに、前記属性に適した検索工程を用いて、類似度を算出する類似度算出工程と、
    前記分割された領域ごとに算出された類似度に重み付けをした総合類似度を算出する総合類似度算出工程と
    を備えることを特徴とする情報処理方法。
  17. 前記検索工程は、
    前記分割工程により分割された領域のうち、テキスト領域から文字認識により抽出されたテキストデータに基づいて全文検索する工程と、
    前記テキストデータに基づいて概念検索する工程と、
    前記分割工程により分割された領域のうち、イメージ領域から抽出された特徴量に基づいてイメージ検索する工程と
    を備えることを特徴とする請求項16に記載の情報処理方法。
  18. 前記総合類似度算出工程は、
    前記入力される文書画像における前記分割された各領域の占有率に基づいて、重み付けを行うことを特徴とする請求項16に記載の情報処理方法。
  19. 前記画像データごとの著作権ロイヤリティに関する情報を格納したサーバと通信する通信工程を更に備え、
    前記画像データについて、前記著作権ロイヤリティに関する情報を取得可能であることを特徴とする請求項16に記載の情報処理方法。
  20. 前記著作権ロイヤリティに関する情報があった場合には、前記サーバからの許可を受けない限り、前記画像データについての処理が行われないことを特徴とする請求項19に記載の情報処理方法。
  21. ユーザに対して、前記著作権ロイヤリティに基づく課金処理を実行する課金工程を更に備えることを特徴とする請求項19に記載の情報処理方法。
  22. 前記入力される文書画像をベクトルデータに変換する際の料金をユーザに対して課金する課金工程と、
    前記課金工程により課金された料金の支払い手続きが行われた場合に、前記入力される文書画像をベクトルデータに変換するベクトルデータ変換工程と、
    前記ベクトルデータに変換された文書画像を格納する格納工程と
    を更に有することを特徴とする請求項16に記載の情報処理方法。
  23. 前記課金工程は、前記ベクトルデータに変換された文書画像の著作権ロイヤリティを管理する際の料金を課金することを特徴とする請求項22に記載の情報処理方法。
  24. 前記入力される文書画像をベクトルデータに変換するベクトルデータ変換工程と、
    前記ベクトルデータに変換された文書画像の特徴に基づいて、格納先の候補カテゴリを出力する候補カテゴリ出力工程と
    を更に備えることを特徴とする請求項16に記載の情報処理方法。
  25. 前記候補カテゴリ出力工程により出力された候補カテゴリの中から、格納先のカテゴリをユーザに選択させるカテゴリ選択工程と、
    前記カテゴリ選択工程で選択されたカテゴリに前記ベクトルデータに変換された文書画像を格納する格納工程と
    を更に備えることを特徴とする請求項24に記載の情報処理方法。
  26. 前記候補カテゴリ出力工程により出力された第1位の候補カテゴリに対し、前記ベクトルデータに変換された文書画像を自動的に格納する格納工程を更に備えることを特徴とする請求項24に記載の情報処理方法。
  27. 前記ベクトルデータ変換工程は、前記総合類似度算出工程の算出結果に基づいて前記文書画像に対応するオリジナルデータファイルが見つからなかった場合に、前記文書画像をベクトルデータに変換することを特徴とする請求項24に記載の情報処理方法。
  28. 前記ベクトルデータ変換工程は、前記文書画像に対応するオリジナルデータファイルがイメージファイルであった場合に、前記文書画像をベクトルデータに変換することを特徴とする請求項24に記載の情報処理方法。
  29. 更に、前記入力される文書画像と比較対象の画像データとのレイアウト類似度を算出し、当該算出されたレイアウト類似度が所定の閾値以上の前記比較対象画像データについては前記類似度算出工程及び前記総合類似度算出工程による処理を実行するよう制御し、当該算出されたレイアウト類似度が所定の閾値より低い前記比較対象画像データについては前記類似度算出工程及び前記総合類似度算出工程による処理を実行しないように制御する、レイアウト類似度算出工程を有することを特徴とする請求項16に記載の情報処理方法。
  30. 更に、前記分割工程で分割された複数の領域のうちから類似度算出に用いる領域を選択させる選択工程を有し、
    前記類似度算出工程は、前記選択工程で選択された領域に関して、前記属性に適した検索工程を用いて、類似度を算出することを特徴とする請求項16に記載の情報処理方法。
  31. 請求項16乃至30のいずれか1つに記載の情報処理方法をコンピュータによって実現させるための制御プログラムを格納した記憶媒体。
  32. 請求項16乃至30のいずれか1つに記載の情報処理方法をコンピュータによって実現させるための制御プログラム。
JP2004067779A 2003-04-30 2004-03-10 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム Pending JP2004348706A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004067779A JP2004348706A (ja) 2003-04-30 2004-03-10 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
EP04252221A EP1473642A3 (en) 2003-04-30 2004-04-15 Information processing apparatus, method, storage medium and program
US10/828,166 US7593961B2 (en) 2003-04-30 2004-04-21 Information processing apparatus for retrieving image data similar to an entered image
CNB2004100366688A CN100458773C (zh) 2003-04-30 2004-04-29 信息处理装置和信息处理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003125816 2003-04-30
JP2004067779A JP2004348706A (ja) 2003-04-30 2004-03-10 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム

Publications (2)

Publication Number Publication Date
JP2004348706A true JP2004348706A (ja) 2004-12-09
JP2004348706A5 JP2004348706A5 (ja) 2007-02-15

Family

ID=32993111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004067779A Pending JP2004348706A (ja) 2003-04-30 2004-03-10 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム

Country Status (4)

Country Link
US (1) US7593961B2 (ja)
EP (1) EP1473642A3 (ja)
JP (1) JP2004348706A (ja)
CN (1) CN100458773C (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) * 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2007034618A (ja) * 2005-07-26 2007-02-08 Ricoh Co Ltd セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
JP2007049388A (ja) * 2005-08-09 2007-02-22 Canon Inc 画像処理装置及びその制御方法、プログラム
JP2007094691A (ja) * 2005-09-28 2007-04-12 Canon Inc 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体
JP2008234203A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 画像処理装置
US8565534B2 (en) 2006-12-07 2013-10-22 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2013246732A (ja) * 2012-05-28 2013-12-09 Toshiba Corp 手書き文書検索装置、方法及びプログラム
JP2015138479A (ja) * 2014-01-24 2015-07-30 レノボ・シンガポール・プライベート・リミテッド Webサイトを共有する方法、電子機器およびコンピュータ・プログラム
JP2018106278A (ja) * 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム、並びに製品作製システム
JP2018159986A (ja) * 2017-03-22 2018-10-11 日本電気株式会社 情報管理装置、情報管理方法、及びプログラム
JP2019115019A (ja) * 2017-12-26 2019-07-11 ブラザー工業株式会社 プログラム
WO2019176398A1 (ja) * 2018-03-16 2019-09-19 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
US10817559B2 (en) 2017-09-21 2020-10-27 Canon Kabushiki Kaisha Image processing apparatus with document similarity processing, and image processing method and storage medium therefor
JP2020194443A (ja) * 2019-05-29 2020-12-03 株式会社マーケットヴィジョン 画像処理システム
JP2021504784A (ja) * 2017-11-21 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書構造抽出に基づいた多言語文書の検索
JP2021514493A (ja) * 2018-02-07 2021-06-10 クリプト リンクス リミテッド 署名方法、システム、及び/又はデバイス
US11494553B2 (en) 2019-03-04 2022-11-08 Fujifilm Business Innovation Corp. Document creation assistance apparatus and non-transitory computer readable medium
JP7487520B2 (ja) 2020-03-27 2024-05-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、画像読取装置、及びプログラム

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6666377B1 (en) 2000-07-18 2003-12-23 Scott C. Harris Bar code data entry device
JP4089655B2 (ja) * 2003-09-16 2008-05-28 セイコーエプソン株式会社 レイアウトシステムおよびレイアウトプログラム、並びにレイアウト方法
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8335789B2 (en) 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8156427B2 (en) 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8144921B2 (en) 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US8965145B2 (en) 2006-07-31 2015-02-24 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8184155B2 (en) 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US8276088B2 (en) 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8086038B2 (en) 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US7970171B2 (en) 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8195659B2 (en) 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8903760B2 (en) * 2004-11-12 2014-12-02 International Business Machines Corporation Method and system for information workflows
US8566705B2 (en) 2004-12-21 2013-10-22 Ricoh Co., Ltd. Dynamic document icons
JP4455357B2 (ja) * 2005-01-28 2010-04-21 キヤノン株式会社 情報処理装置及び情報処理方法
US20060209311A1 (en) * 2005-03-15 2006-09-21 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method
JP4671885B2 (ja) * 2005-06-01 2011-04-20 株式会社リコー 画像処理装置、プログラムおよび画像処理方法
US8739020B2 (en) * 2005-08-03 2014-05-27 Aol Inc. Enhanced favorites service for web browsers and web applications
JP4717743B2 (ja) * 2005-08-23 2011-07-06 株式会社リコー 情報処理装置
JP2007058605A (ja) * 2005-08-24 2007-03-08 Ricoh Co Ltd 文書管理システム
US7930627B2 (en) * 2005-09-22 2011-04-19 Konica Minolta Systems Laboratory, Inc. Office document matching method and apparatus
JP4720544B2 (ja) * 2006-03-01 2011-07-13 ソニー株式会社 画像処理装置および方法、プログラム記録媒体、並びにプログラム
JP4799246B2 (ja) * 2006-03-30 2011-10-26 キヤノン株式会社 画像処理方法及び画像処理装置
US7630975B2 (en) * 2006-03-30 2009-12-08 Microsoft Corporation Unified searching and running of files
JP2008009572A (ja) * 2006-06-27 2008-01-17 Fuji Xerox Co Ltd ドキュメント処理システム、ドキュメント処理方法及びプログラム
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
JP5464786B2 (ja) * 2006-12-21 2014-04-09 キヤノン株式会社 情報処理装置、制御方法、及び制御プログラム
JP4873554B2 (ja) * 2006-12-25 2012-02-08 株式会社リコー 画像配信装置および画像配信方法
JP5141560B2 (ja) * 2007-01-24 2013-02-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JP4951373B2 (ja) * 2007-03-13 2012-06-13 株式会社リコー 画像検索装置、画像検索方法、及びコンピュータプログラム
US8103108B2 (en) * 2007-05-01 2012-01-24 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
JP5033580B2 (ja) * 2007-10-31 2012-09-26 株式会社リコー 画像処理装置及び画像処理方法
US9535993B2 (en) * 2008-06-11 2017-01-03 Enpulz, Llc Creative work registry
JP4636343B2 (ja) * 2008-09-02 2011-02-23 ソニー株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
JP5421609B2 (ja) * 2009-02-17 2014-02-19 キヤノン株式会社 スキャン変換装置及び画像符号化装置、並びにそれらの制御方法
JP5004986B2 (ja) 2009-03-19 2012-08-22 キヤノン株式会社 スキャン変換装置及び画像符号化装置、並びにそれらの制御方法
JP2010250657A (ja) * 2009-04-17 2010-11-04 Seiko Epson Corp 印刷装置、画像処理装置、画像処理方法およびコンピュータープログラム
JP5302769B2 (ja) 2009-05-14 2013-10-02 キヤノン株式会社 スキャン変換装置及び画像符号化装置及びそれらの制御方法
JP2010277168A (ja) * 2009-05-26 2010-12-09 Fuji Xerox Co Ltd データ入力システム、データ入力受付装置及びプログラム
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
DE102009031872A1 (de) * 2009-07-06 2011-01-13 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
CN102054171A (zh) * 2009-10-30 2011-05-11 株式会社东芝 文档文件种类识别装置以及文档文件种类识别方法
US8922582B2 (en) * 2009-11-16 2014-12-30 Martin J. Murrett Text rendering and display using composite bitmap images
US8000528B2 (en) * 2009-12-29 2011-08-16 Konica Minolta Systems Laboratory, Inc. Method and apparatus for authenticating printed documents using multi-level image comparison based on document characteristics
JP5528121B2 (ja) * 2010-01-05 2014-06-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US8892594B1 (en) * 2010-06-28 2014-11-18 Open Invention Network, Llc System and method for search with the aid of images associated with product categories
US8606789B2 (en) * 2010-07-02 2013-12-10 Xerox Corporation Method for layout based document zone querying
KR20120006687A (ko) * 2010-07-13 2012-01-19 삼성전자주식회사 디스플레이장치 및 그 제어방법
US20130091437A1 (en) * 2010-09-03 2013-04-11 Lester F. Ludwig Interactive data visulization utilizing hdtp touchpad hdtp touchscreens, advanced multitouch, or advanced mice
JP2012058926A (ja) * 2010-09-07 2012-03-22 Olympus Corp キーワード付与装置及びプログラム
US8358843B2 (en) * 2011-01-31 2013-01-22 Yahoo! Inc. Techniques including URL recognition and applications
US9213701B2 (en) * 2011-04-26 2015-12-15 Xerox Corporation Systems and methods for electronically auto-filing and retrieving reversible write eraseable paper documents
US9075803B2 (en) * 2011-04-26 2015-07-07 Xerox Corporation Systems and methods for using machine readable codes to store and retrieve reversible write eraseable paper documents
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US20130073687A1 (en) * 2011-09-19 2013-03-21 Ronald Steven Cok System for managing information using machine-readable codes
US8935246B2 (en) * 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
WO2014077276A1 (ja) * 2012-11-14 2014-05-22 三菱電機株式会社 信号処理装置、信号処理方法及び情報読取装置
US9922247B2 (en) * 2013-12-18 2018-03-20 Abbyy Development Llc Comparing documents using a trusted source
RU2597163C2 (ru) * 2014-11-06 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Сравнение документов с использованием достоверного источника
RU2571378C2 (ru) 2013-12-18 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Устройство и способ поиска различий в документах
US9741142B2 (en) * 2014-05-19 2017-08-22 Adobe Systems Incorporated Method and apparatus for enabling text editing in a scanned document while maintaining fidelity of the appearance of the text
US9235758B1 (en) * 2014-06-30 2016-01-12 Adobe Systems Incorporated Robust method to find layout similarity between two documents
JP6562276B2 (ja) * 2014-12-15 2019-08-21 大学共同利用機関法人情報・システム研究機構 情報抽出装置、情報抽出方法、及び情報抽出プログラム
US10678896B2 (en) 2015-06-30 2020-06-09 Samsung Electronics Co., Ltd. Methods and apparatuses for updating user authentication data
US10142499B2 (en) * 2015-10-06 2018-11-27 Canon Kabushiki Kaisha Document distribution system, document distribution apparatus, information processing method, and storage medium
US10380449B2 (en) * 2016-10-27 2019-08-13 Entit Software Llc Associating a screenshot group with a screen
US9965695B1 (en) * 2016-12-30 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Document image binarization method based on content type separation
US10657676B1 (en) * 2018-06-28 2020-05-19 Snap Inc. Encoding and decoding a stylized custom graphic
US11113559B2 (en) * 2018-07-20 2021-09-07 Ricoh Company, Ltd. Information processing apparatus for improving text data recognition, information processing method, and non-transitory recording medium
US11049235B2 (en) 2019-08-30 2021-06-29 Sas Institute Inc. Techniques for extracting contextually structured data from document images
US11270153B2 (en) * 2020-02-19 2022-03-08 Northrop Grumman Systems Corporation System and method for whole word conversion of text in image
US11436852B2 (en) * 2020-07-28 2022-09-06 Intuit Inc. Document information extraction for computer manipulation
CN112000834A (zh) * 2020-08-26 2020-11-27 北京百度网讯科技有限公司 文档处理方法、装置、***、电子设备及存储介质
CN112613285A (zh) * 2020-12-21 2021-04-06 红塔烟草(集团)有限责任公司 一种基于分区域处理的招标文件审查分析方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153117A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書検索装置及び方法
JPH0922414A (ja) * 1995-07-06 1997-01-21 Hitachi Ltd 文書分類支援方法および装置
JPH0991450A (ja) * 1995-07-17 1997-04-04 Toshiba Corp 文書処理装置および文書処理方法
JPH10285378A (ja) * 1997-03-28 1998-10-23 Internatl Business Mach Corp <Ibm> 複写装置及びその制御方法
JPH1196364A (ja) * 1997-09-17 1999-04-09 Minolta Co Ltd 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JPH11187231A (ja) * 1997-12-24 1999-07-09 Canon Inc 画像検索装置及び画像検索方法
JP2000076339A (ja) * 1998-09-01 2000-03-14 Toppan Printing Co Ltd コンテンツ運用方法
JP2000148790A (ja) * 1998-11-10 2000-05-30 Canon Inc ファイリング方法及び装置並びに記憶媒体
JP2000148793A (ja) * 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
JP2001076095A (ja) * 1999-09-06 2001-03-23 Canon Inc 情報処理装置及びその方法
JP2001229186A (ja) * 2000-02-18 2001-08-24 Dainippon Printing Co Ltd 地図複合情報作成システム
JP2001283220A (ja) * 1999-05-13 2001-10-12 Canon Inc 帳票分類方法及び装置
JP2001319231A (ja) * 2000-05-09 2001-11-16 Canon Inc 画像処理装置及び画像処理方法、記録媒体

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4937761A (en) * 1987-11-04 1990-06-26 Blueprint Technologies Incorporated Method and apparatus for enhanced speed graphic image processing
JP2859450B2 (ja) * 1991-01-31 1999-02-17 富士写真フイルム株式会社 画像記録装置及び画像記録方法
JPH04315272A (ja) * 1991-04-12 1992-11-06 Eastman Kodak Japan Kk 図形認識装置
US5991466A (en) * 1991-07-31 1999-11-23 Canon Kabushiki Kaisha Image retrieving apparatus
JP3017851B2 (ja) 1991-07-31 2000-03-13 キヤノン株式会社 画像記憶装置
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP3223617B2 (ja) * 1992-11-30 2001-10-29 富士ゼロックス株式会社 描画装置及び描画方法
US5481255A (en) * 1993-02-10 1996-01-02 Data Critical Corp. Paging transmission system
US6002809A (en) * 1993-04-15 1999-12-14 International Business Machines Corporation Digital image processor for image scaling
JPH07220091A (ja) * 1994-02-04 1995-08-18 Canon Inc 画像処理装置及び方法
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface
JP3582675B2 (ja) * 1994-10-28 2004-10-27 セイコーエプソン株式会社 画像データをメモリに蓄積する装置及び方法
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
US5821929A (en) * 1994-11-30 1998-10-13 Canon Kabushiki Kaisha Image processing method and apparatus
JP2964931B2 (ja) * 1995-04-25 1999-10-18 富士ゼロックス株式会社 画像処理装置および画像形成装置
JPH09223195A (ja) * 1996-02-06 1997-08-26 Hewlett Packard Co <Hp> 文字認識方法
US5915250A (en) * 1996-03-29 1999-06-22 Virage, Inc. Threshold-based comparison
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
US6539115B2 (en) * 1997-02-12 2003-03-25 Fujitsu Limited Pattern recognition device for performing classification using a candidate table and method thereof
JP3780623B2 (ja) * 1997-05-16 2006-05-31 株式会社日立製作所 動画像の記述方法
JP4098880B2 (ja) * 1997-06-06 2008-06-11 松下電器産業株式会社 情報検索装置
JPH1117851A (ja) 1997-06-24 1999-01-22 Sanyo Electric Co Ltd ファクシミリ装置
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
US6463432B1 (en) * 1998-08-03 2002-10-08 Minolta Co., Ltd. Apparatus for and method of retrieving images
JP3849318B2 (ja) * 1998-09-10 2006-11-22 富士ゼロックス株式会社 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6411953B1 (en) * 1999-01-25 2002-06-25 Lucent Technologies Inc. Retrieval and matching of color patterns based on a predetermined vocabulary and grammar
GB9903451D0 (en) * 1999-02-16 1999-04-07 Hewlett Packard Co Similarity searching for documents
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
JP3921015B2 (ja) * 1999-09-24 2007-05-30 富士通株式会社 画像解析装置及び方法並びにプログラム記録媒体
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US6782395B2 (en) * 1999-12-03 2004-08-24 Canon Kabushiki Kaisha Method and devices for indexing and seeking digital images taking into account the definition of regions of interest
JP2001266142A (ja) * 2000-01-13 2001-09-28 Nikon Corp データ分類方法及びデータ分類装置、信号処理方法及び信号処理装置、位置検出方法及び位置検出装置、画像処理方法及び画像処理装置、露光方法及び露光装置、並びにデバイス製造方法
FR2807852B1 (fr) * 2000-04-17 2004-10-22 Canon Kk Procedes et dispositifs d'indexation et de recherche d'images numeriques prenant en compte la distribution spatiale du contenu des images
US6704729B1 (en) * 2000-05-19 2004-03-09 Microsoft Corporation Retrieval of relevant information categories
US7089420B1 (en) * 2000-05-24 2006-08-08 Tracer Detection Technology Corp. Authentication method and system
US6789113B1 (en) * 2000-07-17 2004-09-07 Kabushiki Kaisha Toshiba Information input/output system, information input/output method, recording medium of recording information transmitting/receiving program, and image forming apparatus
JP2002117037A (ja) * 2000-10-06 2002-04-19 Nec Corp 画像検索装置、並びに画像検索方法及びこれが書き込まれた記録媒体
JP2002132547A (ja) * 2000-10-27 2002-05-10 Fuji Xerox Co Ltd 電子情報管理サーバ、電子情報管理クライアントおよび電子情報管理方法ならびに電子情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
US6826316B2 (en) * 2001-01-24 2004-11-30 Eastman Kodak Company System and method for determining image similarity
JP4448623B2 (ja) * 2001-03-29 2010-04-14 セイコーエプソン株式会社 デジタルコンテンツ提供システム,デジタルコンテンツ提供方法,サーバ装置及びデジタルコンテンツ提供プログラム
WO2002082271A1 (en) * 2001-04-05 2002-10-17 Audible Magic Corporation Copyright detection and protection system and method
CA2373568C (en) * 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
US6870962B2 (en) * 2001-04-30 2005-03-22 The Salk Institute For Biological Studies Method and apparatus for efficiently encoding chromatic images using non-orthogonal basis functions
JP4025517B2 (ja) * 2001-05-31 2007-12-19 株式会社日立製作所 文書検索システムおよびサーバ
JP2002373177A (ja) * 2001-06-15 2002-12-26 Olympus Optical Co Ltd 類似オブジェクト検索方法及び装置
US7106470B2 (en) * 2001-08-10 2006-09-12 Hewlett-Packard Development Company, L.P. Direct printing from internet database
JP3882585B2 (ja) * 2001-11-07 2007-02-21 富士ゼロックス株式会社 画像処理装置およびプログラム
JP2003271656A (ja) * 2002-03-19 2003-09-26 Fujitsu Ltd 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP4183432B2 (ja) * 2002-04-10 2008-11-19 富士通株式会社 画像データ符号化方法
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
AU2003231508A1 (en) * 2002-04-25 2003-11-10 Sharp Kabushiki Kaisha Multimedia information generation method and multimedia information reproduction device
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
JP4366916B2 (ja) * 2002-10-29 2009-11-18 富士ゼロックス株式会社 書類確認システム、書類確認方法、及び書類確認プログラム
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US8392249B2 (en) * 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
US20050223031A1 (en) * 2004-03-30 2005-10-06 Andrew Zisserman Method and apparatus for retrieving visual object categories from a database containing images

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153117A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書検索装置及び方法
JPH0922414A (ja) * 1995-07-06 1997-01-21 Hitachi Ltd 文書分類支援方法および装置
JPH0991450A (ja) * 1995-07-17 1997-04-04 Toshiba Corp 文書処理装置および文書処理方法
JPH10285378A (ja) * 1997-03-28 1998-10-23 Internatl Business Mach Corp <Ibm> 複写装置及びその制御方法
JPH1196364A (ja) * 1997-09-17 1999-04-09 Minolta Co Ltd 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JPH11187231A (ja) * 1997-12-24 1999-07-09 Canon Inc 画像検索装置及び画像検索方法
JP2000076339A (ja) * 1998-09-01 2000-03-14 Toppan Printing Co Ltd コンテンツ運用方法
JP2000148793A (ja) * 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
JP2000148790A (ja) * 1998-11-10 2000-05-30 Canon Inc ファイリング方法及び装置並びに記憶媒体
JP2001283220A (ja) * 1999-05-13 2001-10-12 Canon Inc 帳票分類方法及び装置
JP2001076095A (ja) * 1999-09-06 2001-03-23 Canon Inc 情報処理装置及びその方法
JP2001229186A (ja) * 2000-02-18 2001-08-24 Dainippon Printing Co Ltd 地図複合情報作成システム
JP2001319231A (ja) * 2000-05-09 2001-11-16 Canon Inc 画像処理装置及び画像処理方法、記録媒体

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) * 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2007034618A (ja) * 2005-07-26 2007-02-08 Ricoh Co Ltd セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
JP2007049388A (ja) * 2005-08-09 2007-02-22 Canon Inc 画像処理装置及びその制御方法、プログラム
US7746507B2 (en) 2005-08-09 2010-06-29 Canon Kabushiki Kaisha Image processing apparatus for image retrieval and control method therefor
JP4533273B2 (ja) * 2005-08-09 2010-09-01 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム
JP2007094691A (ja) * 2005-09-28 2007-04-12 Canon Inc 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体
US8565534B2 (en) 2006-12-07 2013-10-22 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2008234203A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 画像処理装置
JP2013246732A (ja) * 2012-05-28 2013-12-09 Toshiba Corp 手書き文書検索装置、方法及びプログラム
US9230181B2 (en) 2012-05-28 2016-01-05 Kabushiki Kaisha Toshiba Handwritten document retrieval apparatus and method
JP2015138479A (ja) * 2014-01-24 2015-07-30 レノボ・シンガポール・プライベート・リミテッド Webサイトを共有する方法、電子機器およびコンピュータ・プログラム
JP2018106278A (ja) * 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム、並びに製品作製システム
JP2018159986A (ja) * 2017-03-22 2018-10-11 日本電気株式会社 情報管理装置、情報管理方法、及びプログラム
US10817559B2 (en) 2017-09-21 2020-10-27 Canon Kabushiki Kaisha Image processing apparatus with document similarity processing, and image processing method and storage medium therefor
JP2021504784A (ja) * 2017-11-21 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書構造抽出に基づいた多言語文書の検索
JP7150842B2 (ja) 2017-11-21 2022-10-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書構造抽出に基づいた多言語文書の検索
JP2019115019A (ja) * 2017-12-26 2019-07-11 ブラザー工業株式会社 プログラム
JP2021514493A (ja) * 2018-02-07 2021-06-10 クリプト リンクス リミテッド 署名方法、システム、及び/又はデバイス
WO2019176398A1 (ja) * 2018-03-16 2019-09-19 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
JPWO2019176398A1 (ja) * 2018-03-16 2021-04-22 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
JP7255585B2 (ja) 2018-03-16 2023-04-11 ソニーグループ株式会社 情報処理装置、情報処理方法、および、プログラム
US11494553B2 (en) 2019-03-04 2022-11-08 Fujifilm Business Innovation Corp. Document creation assistance apparatus and non-transitory computer readable medium
JP2020194443A (ja) * 2019-05-29 2020-12-03 株式会社マーケットヴィジョン 画像処理システム
JP7487520B2 (ja) 2020-03-27 2024-05-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、画像読取装置、及びプログラム

Also Published As

Publication number Publication date
US7593961B2 (en) 2009-09-22
CN1542655A (zh) 2004-11-03
CN100458773C (zh) 2009-02-04
EP1473642A3 (en) 2005-11-02
US20040220898A1 (en) 2004-11-04
EP1473642A2 (en) 2004-11-03

Similar Documents

Publication Publication Date Title
JP2004348706A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4181892B2 (ja) 画像処理方法
US7391917B2 (en) Image processing method
KR100747879B1 (ko) 화상 처리 장치, 제어 방법 및 기록 매체
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2004334339A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4393161B2 (ja) 画像処理装置及び画像処理方法
CN100414550C (zh) 用于图像检索的图像处理设备及其控制方法
JP3862694B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2004326491A (ja) 画像処理方法
JP2008146605A (ja) 画像処理装置及びその制御方法
CN101187983A (zh) 图像处理设备和图像处理方法
JP4227432B2 (ja) 画像処理方法
JP4338189B2 (ja) 画像処理システム及び画像処理方法
JP4261988B2 (ja) 画像処理装置及び方法
JP2006025129A (ja) 画像処理システム及び画像処理方法
JP2006023944A (ja) 画像処理システム及び画像処理方法
CN100501728C (zh) 图像处理方法、***、程序、程序存储介质以及信息处理设备
JP2005208977A (ja) 文書ファイリング装置および文書ファイリング方法
JP2004334340A (ja) 画像処理方法及び装置
JP2005149097A (ja) 画像処理システム及び画像処理方法
JP4185858B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2005149210A (ja) 画像処理装置及びその制御方法、プログラム
JP2006166207A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2007048057A (ja) 画像処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090507