JP4023706B2 - データ処理方法及び装置 - Google Patents

データ処理方法及び装置 Download PDF

Info

Publication number
JP4023706B2
JP4023706B2 JP30793899A JP30793899A JP4023706B2 JP 4023706 B2 JP4023706 B2 JP 4023706B2 JP 30793899 A JP30793899 A JP 30793899A JP 30793899 A JP30793899 A JP 30793899A JP 4023706 B2 JP4023706 B2 JP 4023706B2
Authority
JP
Japan
Prior art keywords
document image
document
data processing
bit distribution
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30793899A
Other languages
English (en)
Other versions
JP2000285139A (ja
Inventor
シャン リー ダー
ジェー ハル ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2000285139A publication Critical patent/JP2000285139A/ja
Application granted granted Critical
Publication of JP4023706B2 publication Critical patent/JP4023706B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書管理の分野に係り、特に、文書マッチングの分野に関する。
【0002】
【従来の技術】
電子文書画像の生成及び伝送が容易になったため、文書を自動的に追加したり検索したりする機能を持つデータベースに文書画像が保存されるのが一般的になってきた。その結果、追加しようとする文書と同じものがデータベース内に既に存在しているか否かを効率よく確実に判定できるようにすることが、ますます重要になっている。さもないと、同じ文書が重複してデータベースに格納され貴重な記憶スペースを浪費することになる。データベース内に、ある文書と同じものが入っているか否かを判定することを文書マッチングと言う。
【0003】
現在利用できる画像内容をベースにした検索システムでは、色、テクスチャ、形態の特徴が文書マッチングに利用されることが多い。大部分が2階調(bitonal)で形態及びテクスチャが似ている文書画像のマッチングをしようとすると、
様々な問題が起こる。
【0004】
一般的な文書マッチング手法の1つは、光学的文字認識(OCR)を行ったのち、テキスト・ベースの探索を行う方法である。もう1つの方法は、文書のレイアウトを解析し、構造的に類似した文書をデータベースから探す方法である。残念ながら、この2つの方法はいずれも計算量の多いページ解析を必要とする。計算による解析を減らすための一方法は、文書を確実に識別できるように特別に設計されたマーカーを文書に埋め込む方法である。
【0005】
最近、テキスト・ベースの方法に代わるものとして、画像から特徴量を直接抽出することによりOCRよりも優れた効率性及び頑健性を得ようとする方法が開発された。そのような特徴量の1例はワード長である。文書中のワード長の系列をインデックスとして利用し、照会によって生成された各画像でのヒット数を比較することにより一致文書を識別し得る。もう1つの方法は、ASCIIテキスト検索のための探索キーのコンパイルに利用できる文字形状コード(CSC)の小集合へ、アルファベット文字をマッピングする方法である。CSCは、テキスト画像から、ベースライン及びx−高さラインに対する連結成分の相対的位置に基づいて得ることもできる。このように、CSCは文書画像中のワード検出のために利用できる。十分な長さの先頭のテキスト行から抽出したCSCの短系列を用いて多重インデックスを作ることにより、文書重複検出にもCSCが適用されている。
【0006】
以上に述べた方法の大きな欠点は、本質的にテキスト行ベースの方法であることである。通常、行切り出し、ワード切り出し、あるいは、文字切り出しさえも行う必要がある。テキスト・ベースでないある方法では、水平射影に基づいて重複検出がなされる。水平射影のウェーブレット係数ベクトル間の距離で、文書の類似度を表す。この方法は、低品質の文書やテキスト量が少ない文書に対し、テキスト・ベースの方法より高性能である。
【0007】
データベース内の文書画像の大部分は圧縮された形で格納されているので、圧縮ファイルに対して文書マッチングを行うのが有利である。圧縮ファイルに対し文書マッチングを行うのであれば、伸長と再圧縮の必要がなくなり、必要メモリ量の削減により商用化も容易になる。当然のことながら、圧縮ファイルのマッチングをしようとすると、また別の問題が生じる。CCITTグループ4圧縮ファイルについては、パスコードが類似文書の識別に役立つ情報を含んでいることが分かっている。ある従来技術の方法によれば、小テキスト領域からパスコードを抽出してハウスドルフ(Hausdorff)距離と共に利用することにより、同じ文書を高い割合で正確に識別する。しかしながら、ハウスドルフ距離の計算は計算量が多く、また、距離計算の回数がデータベースの大きさに比例して増加する。
【0008】
【発明が解決しようとする課題】
よって、本発明の主要な目的は次の通りである。
(1)少ない計算量で高精度の文書マッチングが可能な、テキスト・ベースでもテキスト行ベースでもない方法及び装置を提供すること。
(2)文書画像が圧縮されている場合においても、文書画像の伸長を行うことなく、少ない計算量で高精度の文書マッチングが可能な方法及び装置を提供すること。
(3)文書画像のノイズ、変形に対して頑健な文書マッチングが可能な方法及び装置を提供すること。
以上の目的のより具体的な内容並びにその他の目的は、以下の説明から明瞭になろう。
【0009】
【課題を解決するための手段】
上記目的を達成するため、本発明の一態様によれば、照会文書がデータベース内の複数の文書中の1つ以上と一致するか判定するため、照会文書中の複数の画素行の各行を符号化するために必要とされるビット数に基づいて、照会文書のビット分布(bit profile)が生成される。そして、このビット分布とデータベース内の複数の文書に関するビット分布との比較により、1つ以上の候補文書が割り出される。この1つ以上の候補文書に対しさらに詳細なマッチングを行うために、照会文書の端点特徴が検出され、この端点特徴の位置に基づき照会文書に関する記述子の集合が生成される。この生成された記述子の集合と、1つ以上の候補文書に関する記述子の集合との比較により、1つ以上の候補文書の少なくとも1つと照会文書が一致するか判定される。
【0010】
以上に述べた本発明の特徴及びその他の特徴は、添付図面及び以下の詳細な説明によって明らかになろう。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態について様々な実施例によって説明する。また、以下においては、主にCCITTグループ4圧縮文書を対象として説明するが、本発明はそれに限定されるものではなく、他の形式の文書、例えばCCITTグループ3の圧縮文書やTIFF形式のファイルにも適用し得るものである。
【0012】
また、次のような語句又は略語を用いるが、別の意味が前後関係から明白である場合を除いて、以下の定義が適用される。
・検索率(recall rate):データベースから適切な一致文書が選び出される割合
・MMR:Modified Modified Relative Element Address Designateの略語
・テキスト密度:単位領域あたりのテキスト行数(例えば5行/インチ)
・CCITT:国際電信電話諮問委員会
・TIFF:Tagged Image File Formatの略語
・G3圧縮又はグループ3圧縮:CCITT勧告T.4に記載の文書画像圧縮方式
・G4圧縮又はグループ4圧縮:CCITT勧告T.6に記載の文書画像圧縮方式
・文書画像:1枚の紙又は同様の媒体のデジタル画像
・走査線:文書画像中の1つの画素行
・ハーフトーン:分離した黒と白のドットによるグレースケール画像の模擬画像
・ダウンサンプル:平均化することによって、又は、他の方法で複数画素を1画 素に統合することによって、解像度を下げる手法
・ハフマン・コード:画素ラン符号化用ビット・コード
【0013】
図1は、一実施例による2段階文書マッチングの概要を示す。粗マッチング段階15において、圧縮された照会文書12が走査されビット分布(bit profile)が生成される。このビット分布から、行間隔や文字高さなどの大局的統計量が計算され、これを用いることによって画像データベース14内の探索すべき文書の範囲が絞られる。次に、前記ビット分布が、探索範囲内の文書に関して予め計算されているビット分布と比較されることにより、詳細マッチング段階20のための候補17が選び出される。粗マッチング段階15で複数の候補17が得られた場合、詳細マッチング段階20において、詳細マッチングのための端点特徴の集合が照会文書から抽出される。端点特徴は、ページのスキュー推定や向き推定など、様々なレベルの処理に必要な情報を含んでいる。さらに、端点特徴は、安定であり、対称的であり、また、グループ4圧縮ファイルなどの(これに限定されない)一般的に用いられる圧縮ファイルから容易に計算可能である。詳細マッチング段階20において、抽出された端点特徴を用いることにより、高い確率で一致文書21が正確に識別される。
【0014】
《1.粗マッチング段階》
粗マッチング段階15の主目的は、候補集合を高い検索率で得ることである。したがって、使用される特徴量は、計算が簡単であって、一般的な画像変形に強いものである必要がある。伸長を行うことなく得られる、最もわかりやすい特徴量はファイル・サイズである。しかし残念ながら、オリジナル画像と写真複写画像とではハーフトーン品質が一致しないため、あるいは、文書の周縁近傍でのハーフトーン効果により、圧縮ファイルのサイズは一致すべき文書間でも大きく異なることがある。同じように利用しやすく、情報量がずっと多いのは、各走査線の圧縮後のサイズである。
【0015】
図2は、一実施例による粗マッチング段階の説明図である。まず、G4又は他の圧縮方法により圧縮された照会文書12を1回走査することにより、圧縮ビット分布25を生成する。次に、このビット分布25に対しスペクトル解析手法を適用することにより頑健な大局的統計量を生成する。この照会文書12の大局的統計量を、データベース内の文書画像に関し予め計算された大局的統計量27と比較することにより、初期候補の集合を生成する。これら初期候補に関して予め計算されたビット分布29と照会文書12のビット分布25との相互相関をとることにより、順位付けされた候補17の集合を含む仮説を生成する。相互相関によって高い確信度で一致するものが得られた場合には、これ以降の処理を省いてもよい。
【0016】
《1.1 ビット分布(bit profile)の抽出》
グループ4圧縮規格は、各走査線が上の走査線を基準にして符号化される2次元のランレングス・ベースの符号化方式(MMR)を規定している。この2つの走査線上の連続したランのパターンに応じて、適切なハフマン・コードが生成される。MMR符号化は決定論的であるため、同じ画像パターンであれば、それが文書中のどこに位置していようと、同様の圧縮比が得られる。したがって、各画素行の符号化に要するビット数は、計算するのに都合のよい特徴量である。一般的に、ハーフトーンは符号化するのに最も多くのビットを必要とし、テキストはそれより少ないビット数しか必要とせず、背景はさらに少ないビット数しか必要としない。殆どがテキストで横向きの画像の場合、そのビット分布にテキスト行に対応したピークと谷が現れる。テキスト行によって生じるピークと谷の例が図3に示すビット分布25の領域41に見られる。このビット分布25は、文書画像40の圧縮データから生成されたものである。
【0017】
インク濃度の水平射影(例えば、各走査線上の黒画素の平均個数)とは異なり、ビット分布(bit profile)からどこに情報が実際にあるかわかる。例えば、写真複写された文書の周縁部にしばしば出現する大きな黒領域(例えば、図3の領域43)は、ビット分布25には殆ど影響を及ぼさないが、これに対し、インク濃度分布には大きなピークができるだろう。実際、ページを反転表示しても、ビット分布25はそれほど変わらないであろう。また、ビット分布25は、インク濃度分布よりも、走査線上のインク分布に関する多くの構造情報を伝える。文書で普通に使用されるポイント・サイズの範囲では、全ページ幅の各テキスト行の(正規化単位の)圧縮率はほぼ均一であり、したがって、テキストとハーフトーンが同様のインク濃度を持つことがあったとしても、テキスト行をハーフトーン部分と区別することが可能になる。
【0018】
《1.2 仮説の生成》
多くの場合、ビット分布(bit profile)が有する情報量はただ1つの文書を一意に同定するには少なすぎる。しかし、そっくりな文書は同様のビット分布を持つのが普通である。距離計算に基づいてビット分布を直接的に比較する方法では、ビット分布が相対的に垂直方向に少し平行移動するだけでも失敗する可能性がある。そこで、少なくとも一実施例にあっては、相互相関が用いられる。ビット分布ベクトルの相互相関は、それら分布のフーリエ変換の積として効率的に計算することができる。また、相互相関によって垂直方向のレジストレーションが求まり、これは局所的特徴を抽出するための2つの画像の対応部分を割り出すのに利用できるであろう。計算コストをさらに削減するため、文書の大局的統計量が計算されて探索範囲の絞り込みに利用される。
【0019】
ビット分布から、いくつかの大局的統計量を抽出できる。ビット分布の周期性は、スペクトル特性が統計的モーメントより有用であることを示唆する。支配的な行間隔、テキスト行数及びテキストの位置は良好な第1段階の特徴付けを与えるが、これら統計量はスペクトル領域においてビット分布から容易に求めることができる。一実施例によれば、ビット分布の周波数成分の解析のためにパワースペクトル密度(PSD)が用いられる。
【0020】
図3に、ビット分布25から計算されたPSD45を示す。照会文書40(又はその圧縮データ)の支配的な行間隔は、PSD45の最も高いピーク47から直接計算できる。照会文書40のテキスト行数の定量的な目安はスペクトル解析では与えられないが、PSD45におけるピーク周波数でのエネルギー(矢線49で示す)はページ上のテキスト量の良好な目安である。一実施例によれば、支配的な行間隔の周波数を中心にした帯域フィルタをビット分布25に適用することにより、照会文書中のテキスト行の位置が推定される。フィルタ処理後の信号はテキスト位置で振幅が大きくなることは、テキスト・エネルギー分布51に示す通りである。位相群遅延グラフ53(ラジアン単位でプロット)において一定した値の小さな領域55で示すように、位相がリニアなビット分布の区間は、テキスト・ブロックとよく一致する。一実施例によれば、テキスト・エネルギー分布51の重心59と、90%エネルギー区間の幅60が、テキストの位置と密度の推定値として用いられる。一実施例によれば、テキストの位置及び密度が、ピーク周波数及び全テキストエネルギーとともに、データベース画像空間内に探索ウインドウを定めるための大局的統計量として用いられる。他の実施例では、これ以外の大局的統計量又は大局的統計量の別の組合せが用いらることもある。
【0021】
《1.3 特徴解析》
ここで、ビット分布特徴と大局的統計量の、様々な変形に対する頑健性は検討に値する。図4は、2つの一致すべき文書画像間によく見られる変形のいくつかを示す。これらの問題の解析において重要な着目点は次のとおりである。2つのページの間に相対的なスキューがなければ、ノイズの多いほうの画像のビット分布は、ノイズの少ないほうの画像のビット分布に、ノイズの多いほうの画像上のその他全てのもののビット分布が付加された、すなわち加算されたものである。前述のように、ページの上部と側部にある大きな一様に黒い領域61,63は、ビット分布にはほとんど影響を及ぼさない。しかし、ハーフトーンにディザ化されたグレー領域(例えば領域65)によって、ビット分布は大きく変化する可能性がある。ページの上部又は下部のハーフトーン部分は、孤立したピークとしてビット分布に現れるが、それらの局所的平均はテキスト行にしては高すぎるので検出して除去することができる。ページの長手方向に沿うハーフトーン部分は、ビット分布にランダムなノイズを加える。しかし、このようなランダムなノイズは、通常、密度が極めて均一であるため、PSDにはそれほど影響を及ぼさない。他方、ページの片側にある関係のないテキスト66はもっと大きな影響をPSDに及ぼすことがある。このページの片側にある無関係なテキスト66のテキストエネルギーは、その行間隔と本体テキストの行間隔とが同じ場合には本体テキストのテキスト・エネルギーに吸収されるが、それらの行間隔が異なる場合には、別の、通常はもっと小さなピークを作る。
【0022】
最も重大な欠陥の1つは、ページ上の画像の回転によって生じるスキューである。回転67は、ビット分布において水平射影を局所的に平均化させる作用をし、ピークを低くし谷を浅くする。スキューが大きくなればなるほど、平滑化作用も強くなる。ビット分布の平滑化は、支配的な周波数を変化させないが、エネルギー分布を変化させ、ピーク周波数でのエネルギーをスペクトルの低い側へ押しやり、検出をずっと難しくさせる。これが図4のPSD69に例示されている。図4において、パワー密度72と同74はそれぞれスキューのない画像71とスキューのある画像73についてプロットしたものである。一実施例によれば、スペクトル評価の前に、ビット分布に対し低周波エネルギーを除去するための前処理が施される。大局的統計量は、概して、画像の歪みに対し頑健である。しかし、ビット分布の相互相関は画像の歪みに対する耐性が弱い。
【0023】
これ以外にも、解像度や符号化形式などビット分布の変動をもたらす関連要因がある。グループ4圧縮では2次元符号化と固定ハフマン符号化テーブルが用いられる結果、圧縮に必要とされるビット数はランの長さに比例しては増減しない。(例えば拡大によって生じる)水平解像度の変化はビット分布全体に一定のスケーリング効果を及ぼすことはないとはいえ、残留誤差は無視できることが多い。ビット分布をダウンサンプルし、様々な垂直解像度に合わせることも、局所的変動を減らすのに役立つ。
【0024】
ここまでG4圧縮画像を中心に説明してきたが、G3圧縮方式に関連したことも言及する意味がある。同じ画像のG3符号化ファイルとG4符号化ファイルのビット分布の差異は、1次元(1D)符号化走査線と2次元(2D)符号化走査線にある。2D符号化は、通常、1D符号化より効率がよいため、G3符号化ビット分布は、G4符号化ビット分布に、周波数がkの周期的波形を加えたものである。ここで、kは1D符号化走査線の周波数である。G3において、kの推奨設定は、200ドット/インチ(dpi)で2走査線おきであり、それ以上に高い解像度の場合には4走査線おきである。実際には、差異はピーク高さについては小さいことが多く、これらの周波数は通常は非常に高いため本来の行間隔と混同されることはない。TIFF形式のファイルにおいては、この種の周期的ノイズが符号化方式とは関係なく発生することがある。TIFF形式のファイルでは、処理を容易にするため画像が固定サイズのストリップとして符号化されることが多い。そのため、各ストリップの最初の行は事実上、1D符号化される。1ストリップ当たり行数(RowsPerStrip)のパラメータの設定を変えると、それに対応した変化がPSDに生じる。G3における周波数kの周期的波形の場合と同様に、TIFF形式ファイルにおける事実上の1D符号化によって生じるノイズは、テキスト行によって作られるピークに比べかなり小さいので無視し得る。
【0025】
《2.詳細マッチング》
視覚的に異なる文書が同じ様な圧縮ビット分布を持つことがあり得るので、粗マッチングにより得られた候補リスト中の不確実なものを取り除くために2段目の処理が必要であろう。一実施例によれば、それ以上の情報を得るため、G4圧縮照会画像又はそれ以外の方法で圧縮された照会画像から端点特徴の集合を抽出する。解析により、これら端点特徴の部分集合がマーカーとして認定される。文書の索引付けのため、これらマーカーの位置に基づいた記述子が生成される。粗マッチング処理で文書候補集合が得られたときには、クロス確認が実行される。以下の部分で、端点特徴の抽出及び記述子の生成について詳述する。
【0026】
《2.1 端点抽出》
端点特徴抽出の理解を容易にするためには、グループ4圧縮方式について簡単に検討するのが有益である。グループ4圧縮方式では、各走査線は上の走査線を基準として符号化される。図5の(A)及び(B)を参照すれば、現在符号化点a0を基準にして、両走査線上の2つの連続した画素ランの起点(変化要素と言う)が随時検出される。これらの変化要素間の相対位置に基づいて、可能な3つのモードの中の1つのモード、すなわち水平モード、垂直モード又はパスモードが符号化のために選択される。符号化後、a0が先へ移動させられ、処理が繰り返される。これが図5に矢線81及び83で示されている。復号化時には、復号化されたモードが既に分かっている変化要素(a0,b1,b2)と併用されることによりa1及び/又はa2の位置が決定される。そして、要素a0が符号化の場合と同様に先へ移動させられる。したがって、モード情報が最初に復号化される。変化要素の位置も常に保存される。
【0027】
パスコードは、ストロークの最下部(白パス)又はホールの最下部(黒パス)に対応した位置で発生する。ローマ字の場合、これらの特徴点は、下向きの縦ストロークの端又は曲線ストロークの最下部に見出されることは、図6のパスコード・ダイアグラム87によって示す通りである(各正方形ドット88がパスコードの位置を示す)。パスコードがベースラインの近くに整列しているため、また、パスコードが構造情報を持っているため、パスコードはスキュー推定、テキスト・マッチングのような様々な処理に有用である。パスコードがグループ4圧縮ファイルから容易に抽出できることも同様に重要である。
【0028】
パスコードは有用ではあるが、限界もある。第1に、白パスコードは全てストロークの最下部に対応するが、ストロークの最下部の全てがパスコードによって表現されるわけではない、という意味でバスコードは不安定である。グループ4の符号化モードはコンテキスト依存性があるため、同じ変化要素局所パターンであっても異なった符号化がなされる可能性がある。
【0029】
例えば、図5(A)のb1から始まる黒ラン84はパスコードを発生させる。一方、図5(B)のb2から始まる黒ラン85はパスコードを発生させない(もしa1が1画素右にシフトしたならば発生させるだろうが)。それどころか、b2にあるストロークの最下部86は、a0からa2まで及ぶ水平モード符号化によって完全に隠蔽される。
【0030】
パスコードのもう1つの限界は、パスコードが非対称であることである。ストローク又はホールの最下部をパスコードで表現し得るとしても、パスコードは、そのストローク又はホールの最上部の情報は全く与えない。例えば、図6のパスコード・ダイヤグラム87に見られるように、”d”の最下部は2つのパスコード、すなわち白パスコード89Aと黒パスコード89Bを含むことが多いが、その文字の最上部の特徴点は全く捕捉されない。
【0031】
パスコードには前記の限界があるため、少なくとも詳細マッチング段階の一実施例によれば、圧縮照会文書の変化要素から直接的に端点特徴が抽出される。2種類の端点、すなわち上端点と下端点が抽出される。下端点は、白パスコードで捕捉されるものと同様の、ストロークの最下部である。しかし、下端点とパスコードとの重要な相違は、下端点が変化要素a1,b2の位置を直接比較することによって抽出され、水平符号化によって不明瞭になる可能性がなくなることである。このように、パスコードと違い、ストロークの最下部は全て下端点であり、かつ、下端点は全てストロークの最下部である。ストロークの最上部は、変化要素a2,b1を用いて同様に上端点として抽出される。
【0032】
図6の端点ダイヤグラム94は、上端点及び下端点によって捕捉される特徴量を表すもので、パスコードによって捕捉される特徴量と端点によって捕捉される特徴量との差異を明らかにするためパスコード・ダイヤグラム87の直ぐ下に置かれている。端点ダイヤグラム94は、下端点96はおおむねテキスト行のベースライン98の位置に整列するが、上端点95はおおむねx−高さライン97の位置に整列することも示している(x−高さラインは、小文字”x”の最上部で決まるラインである)。
【0033】
図7の(A)及び(B)並びに以下の擬似コードは、上端点と下端点の検出方法を説明するために用意された。
if ((pixel(a0) == WHITE) and (al>b2))
{
down endpoint at (b1+(b2-bl+l)/2,r-l)
move a0 to b2
}
if ((pixel(a0) == WHITE) and (bl>a2) and (b0<al))
up endpoint at (al+(a2-al+l)/2,r)
move aO to a2
}
【0034】
図7(A)において、a0は白でa1はb2の後に現れる。よって、上記擬似コードリスト中の最初の条件文の条件が満たされるので、走査線r−1上のb2からb1までのランのほぼ中間点に下端点96が設定される。要素a0は、矢線101で示されるように、走査線r上のb2の真下位置へ進められる。
【0035】
図7(B)において、a0は白であり、b1はa2の後に現れ、b0はa1の前に現れる。よって、前記擬似コードリスト中の2番目の条件文の条件が待たされるため、走査線r上のa1からa2までのランのほぼ中間点に上端点95が設定される。要素a0は、矢線103で示されるように、a2まで進められる。
【0036】
端点にはパスコードに比べ有利な点がいくつかある。まず、端点のほうが安定である。すなわち、同じ特徴点が符号化モードの違いによって不明確になることがない。また、端点は、テキスト行のx−高さラインとベースラインの両方に関する情報を与える。これによって、文字高さ、ページ向き、アセンダなどの情報の抽出が可能になる。上端点及び下端点の対称性は、上下逆さまのページを処理する場合に好都合である。ページが上下逆さまであるときには、上端点と下端点とを入れ替えて簡単な座標再配置をすることによって正しい向きのページに関する端点を得ることができる。圧縮文書を再度走査する必要がない。これに対し、パスコードは、非対称であるため、対応した特徴点を得るためには、通常、画像を上下逆さまにして改めて圧縮する必要がある。さらに、端点は変化要素の相対的位置に基づいて検出されるため、それらの位置はパスコードと同程度に計算が容易である。
【0037】
《2.2 文書の索引付け》
特徴抽出の次に、2次元の端点情報は、効率的な索引付けのための1次元表現に変換される。この変換には、いくつかの操作が必要とされる。まず、ページのスキューが推定され、端点に基づいて修正される。スキュー補正後の上端点と下端点についての平滑化した水平射影(U分布とD分布と呼ぶ)を用いて、テキスト行の位置が検出される。x−高さラインは対応したベースラインより上にあるはずであるから、D分布はU分布より後にあるはずである。ビット分布のスペクトル解析により求められた支配的行間隔によって制限されたオフセットの範囲内で、U分布とD分布間の最大相関が計算される。相関分布において、U分布の極大値が、文字高さに相当する距離だけ離れたD分布の極大値と一致する場所ではテキスト行が検出される可能性が高い。U分布とD分布の相関を向上させるため、行間隔の2倍未満の範囲内にあるU分布及びD分布の極大値以外は全て0にされる。これは、U分布からx−高さライン以外のものを全て除去し、かつ、D分布からベースライン以外のものを全て除去しようとするものである。それから、極大値の分布について相関がとられる。図8は、照会画像から抽出されてスキュー補正された端点集合109と、上端点及び下端点の水平射影112(下端点はD分布を作る負の射影値114である)と、U分布及びD分布の極大値の射影115と、一致するU分布とD分布の極大値117を示す。
【0038】
テキスト行位置の集合が与えられたならば、各テキスト行領域内の端点が抽出される。テキスト行内の端点を用いて、そのx−高さラインとベースラインの位置を知ることができるから、そのテキスト行内のアセンダ領域及びデセンダ領域と呼ばれる領域を定めることができる。図9は、2つのテキスト行領域127,129を含む画像領域125と、各テキスト行領域内に含まれる上端点及び下端点を表している。対応した端点マップ131には、実線で表されたテキスト行の境界133A−133Cと、破線で区切られたアセンダ領域135A,135B及びデセンダ領域137A,137Bが含まれている。この端点マップ131において、上端点と下端点はそれぞれ上向きの三角形と下向きの三角形で示されている。
【0039】
図9に示された例から、いくつかのことが分かる。まず、上端点と下端点の相対的位置から重要な情報を導き出すことができる。例えば、点などの符号や、”i”,”j”は、(例えば矢線145で示すように)アセンダ領域135A,135B内の同じx位置に上端点と下端点の両方が存在することから容易に分かる。また、中間領域147A,147B内の上端点は、通常、”e”,”s”,”t”のような文字の上向き曲線を表す。文字”c”は、(例えば矢線146によって示すように)中間領域内の2組の対向した上端点と下端点によって表される。
【0040】
一実施例によれば、比較的小さい領域から抽出された端点の系列を用いて文書マッチングのための索引が作られる。基準線がうまく決まれば、端点を系列にエンコードする方法はいくつか可能である。観察すると、x−高さ領域の内側に生じる端点は、接触、分離、セリフ、フォント種類の変動によるノイズの影響を受けやすいことが分かる。そのため、一実施例によれば、中間領域内の端点は無視され、X−高さラインより上にある(すなわちアセンダ領域内にある)上端点とベースラインより下にある(すなわちデセンダ領域内にある)下端点だけがマーカーとして用いられる。他の実施例では、テキスト行の他の領域から抽出された端点がマーカーとして用いられることもあろう。
【0041】
一実施例によれば、連続したマーカー間の量子化距離の系列が記述子として用いられる。連続マーカー間距離の量子化を図10に例示する。上端点マーカー(すなわち”アセンダ”)間距離を表すために正値が用いられており、下端点マーカー(すなわち”デセンダ”)間距離を表すために負値が用いられている。各テキスト行領域の左端の端点は基準点149A,149Bとして用いられる。これに代わる実施例では、別の基準点と距離形式が用いられることもあろう。2次元構造を保存するため、テキスト行間にまたがる距離インジケータが、間に0をはさんで連結される。したがって、与えられたテキスト行について、正値と負値のストリングが生成されることになる。例えば、図10に示すテキスト行については、距離インジケータのストリングは
1,11,13,4,2,2,2,4,0,-39
O,
5,7,7,4,8,6,0,-11
となる。
【0042】
他の実施例では、これとは異なるマーカー距離形式が用いられることもあろう。例えば、アセンダ領域とデセンダ領域のマーカー距離を厳密に左から右へ向かう順に交互に並べてもよい。
【0043】
一実施例によれば、N個の連続した距離からなる各系列により作成された記述子で、データベース内の各文書が逆索引付けされる。同様に、N個の連続した距離からなるK個の系列が照会時に生成される。一案によれば、各記述子の重みは、索引付けする文書数に逆比例する。例えば、図10の例においてN=5とすれば、下記の通り、K=(距離インジケータ数−N)+1=(19−1)+1=15個の系列S1〜S15が生成される。
S1=(1,11,13,4,2)
S2=(11,13,4,2,2)
S3=(13,4,2,2,2)


S15=(4,8,6,0,-11)
【0044】
索引付けする文書数に逆比例して各系列に重み付けをすることにより、K個の系列中の各系列Siは、それで索引付けするMi個の文書の1つ1つに1/(K*Mi)なるスコアを与える。ある閾値より大きなスコアを与えられた文書が、詳細マッチング段階で選出される。Nの値が大きいほど、より少ない、よりユニークな記述子が生成されるが、長い系列ほどノイズによって分断されやすい。本発明の範囲から逸脱しない限り、記述子の重み付け及び記述子の選択のために他の方法を用いてもよい。
【0045】
《3.実験結果》
979の文書画像からなるデータベースについて実験を行った。979の画像中、292(146組)の画像は一致する相手がある。これら292の画像中の各画像が、それと一致する画像を残りの978の画像から検索するための照会画像として用いられる。粗マッチング手順と詳細マッチング手順の個別実験と組み合わせ実験が行われた。それぞれの実験の結果を以下に示す。
【0046】
《3.1 粗マッチングの実験結果》
粗マッチング・アルゴリズムの一具体化例では、特定の垂直画像解像度で得られた原ビット分布が、平均化によって36dpiにダウンサンプルされる。これは、検出可能な最小行間隔が4ポイントであることを意味する。このような解像度であれば、ビット分布は十分滑らかであるが、それでも、その詳しさは索引の計算及び分布の修正に必要十分である。スペクトル解析中に、8ポイントから36ポイントまでの周波数範囲に限定して支配的な行間隔が調べられる。分布値は、300dpi(水平)の1インチあたりビット数に正規化されてから8ビットに量子化される。この8ビットという深さは、様々なフォント種類において300dpiで圧縮するために8ポイント文字が必要とするのは200ビット/インチ未満であるのが普通であるという知見に基づき実験的に見出された。平均255ビット/インチを越える走査線は、通常、ハーフトーンを含んでいる。他の画像解像度で得られた分布は(36dpiで垂直方向に再サンプリングされた後)、まず比例変倍され、次に量子化される。グループ3/グループ4符号化ファイルやTIFF形式のストリップ・サイズに対する特別な調整は行われない。したがって、典型的な8.5×11インチのサイズの1ページにつき、396バイト(11インチ×36dpi×8ビット)のデータが生成される。
【0047】
上位N個の選択結果についての検索率(recall rate)を図11にまとめて示す。ビット分布の相互相関によって、最上位の選択結果で86%の正解が得られ、また上位3つの選択結果で91%の正解が得られた。大局的統計量を索引付けに利用すると、相互相関計算のための平均候補数は、検索率を悪化させることなく、90%減少する。データベース内文書のビット分布の離散フーリエ変換が予め計算され格納されているので、相互相関をベクトル積で計算できる。したがって、各画像照会には、ビット分布の抽出、大局的統計量によるフィルタ処理、その後の約100回の396次元ベクトル積演算が必要である。
【0048】
正しく一致がとれた文書と間違って一致がとれた文書の例を図12及び図13にそれぞれ示されている。正しく一致がとれたケースを見れば、前述した変形に対処できる情報頑健性があることは明白である。殆どの誤りは、画像にスキューがあるか画像にハーフトーン部分が含まれているために起こった。ハーフトーン部分の品質は、索引付けには影響を及ぼさないけれども、分布相関に大きな影響を及ぼす。また、多段組のページ、特に、ある段がハーフトーンで別の段がテキストである多段組ページによって問題が起こることがある。非共線的な段があると、エイリアシングが生じて行間隔推定が不正確になることがある。2組の画像は倍率が異なっている。
【0049】
行間隔指標及びテキスト・エネルギー指標のほうが、テキストの位置指標及び大きさ指標より、探索空間を絞り込むのにずっと有効であることが分かった。このことは、フーリエ変換の空間局在性の悪さから予想されるものである。しかし、密に配されたポイント・サイズ9から12までの行間を識別するためには、周波数分離が良好であることが重要である。テキスト位置検出の改善のため、ウェーブレット変換を用いてもよい。
【0050】
《3.2 詳細マッチングの実験結果》
詳細マッチングの実験においては、既知の正しい情報(ground truth information)を利用して、画像中の最初のテキスト部分の1.5×1インチの領域から端点が抽出された。そして、アセンダ領域及びデセンダ領域の端点を検出するためテキスト行位置検出アルゴリズムが適用された。これら領域のいくつかには画像の非テキスト部が含まれていたが、この行位置検出手法によってテキスト行に属さない特徴点を全て除去できた。アセンダ領域とデセンダ領域の境界が定まってから、各領域毎に端点マーカー間距離の系列が生成された。連続したN個の距離をそれぞれ索引として選び、データベース照会のための複数の記述子が作成された。前述の重み付け方法を用いて、最も高いスコアを与えられた画像が選択された。
【0051】
292の画像の1つ1つを用いて979の画像全体に対して照会した。これらの画像自体は、すべてのケースで検索された。この292のケースのうち290のケースでは、その画像だけが第1位の選択結果として検索された。2つのケースでは、別の画像が1つ同じスコアで検索された。重複検出の場合、あるケースが正しいとみなされるのは、一方のスコアが残りの画像中で最高であって同じスコアがないときである。異なるN値の場合の結果が図14にまとめて示されている。
【0052】
3つの距離からなる系列、4つの距離からなる系列、及び、5つの距離からなる系列を用いることにより、92.5%の重複が正しく検出される。この性能は、もっと計算量の多い手法によって達成される結果に匹敵する。しかも、この索引付け方法は、距離ベースの方法に比べ拡張性が非常に優れている。誤りの大部分は特徴点のノイズによるものである。
【0053】
射影ベースのテキスト行位置検出手法は、ページの幅方向にテキスト行が共線的であることを前提にしているため、その性能は整列していない多段組文書では悪化する。この問題に対する解決策の1つは、垂直射影を用いて段分割をすることである。もう1つの解決策は、文書の縦方向断片内でテキスト行位置検出を行い、信頼性の高い結果だけを利用することにより段境界を避けることである。
【0054】
テキスト行境界の外側に出現する擬似特徴点によって、誤った記述子が生成されることがある。テキスト行の水平方向の大きさを検出するための方策をいくつか講じてもよい。特徴点はスキューを補正済みであり、かつ、x−高さラインとベースラインは分かっているから、前記端点分布に基づいて行領域の端を見つけることができる。さらに、記述子生成のための領域は自動的に決定できる。実験においては、既知の正しい情報(ground truth information)が、文書画像中の対応テキスト領域を検出するために用いられた。このレジストレーション・プロセスは、自動領域選択方法で置き換えてもよい。検出された各テキスト行毎に記述子を生成すると、データベースのサイズが増加して検索精度が悪化するであろう。候補領域を特定するための可能な1つの方法は、局所的な特徴点密度に基づいて選択する方法である。本発明の範囲を逸脱しない限り、他の手法を用いてもよい。
【0055】
《3.3 組合せ実験結果》
粗マッチング段階と詳細マッチング段階を組合せた実験においては、第1位選択結果の相関スコアが0.5より大きく、かつ、第1位選択結果のスコアと第2位選択結果のスコアとの差が0.03より大きい場合に、粗マッチング段階の結果が選ばれる。それ以外の場合には、上位20個の選択結果が詳細マッチングに回される。その結果、70%の画像が粗マッチングによって確定され、30%の画像だけが詳細マッチングを必要とする。システム全体の正解率は93.8%である。このように、分布相関による粗マッチングは、実行効率を向上させるだけでなく、それがないと詳細マッチング単独では間違いやすい候補を排除することが分かる。判定ルールを修正すれば、結果は違ったものになろう。殆どの場合、検出の信頼性を向上させるために詳細マッチング段階を行うべきである。
【0056】
《4.データ処理システムの概要》
図15は、本発明の実施例に従った処理を実行するためのデータ処理システム150の一例を示すブロック図である。このデータ処理システム150は、処理装置151、メモリ153、表示装置155、カーソル制御装置157、キーパッド158、通信装置159をそれぞれバス構造161に接続してなる。データ処理システム150は、デスクトップコンピュータであっても、ワークステーションであっても、もっと大型のコンピュータであってもよい。あるいはまた、データ処理システム150は、圧縮文書画像を処理するのが望ましい、コピー装置、ファクシミリ装置、その他任意の電子装置であってもよい。カーソル制御装置157は、表示装置155に表示されている要素を操作するための、マウス、トラックボール、その他任意の装置でよい。キーパッド158は、ユーザが英数字データを入力可能な、キーボードやその他の任意の装置でよい。データ処理システム150で遂行される機能に応じて、他の入出力装置163が設けられてもよい。
【0057】
処理装置151は、命令シーケンスを実行可能な、1つ以上の汎用プロセッサ、1つ以上のデジタル信号プロセッサ、その他任意の装置でよい。処理装置151は、データ処理システム150の複数のコンピュータ間に分散配置されてもよい。ネイティブマシン言語又は仮想マシン言語を用いてプログラムすることによって、処理ユニット151を前述した粗マッチング段階と詳細マッチング段階の処理を実行するために利用できる。
【0058】
通信装置159は、データ処理システム150を電子装置のネットワーク(例えばインターネットのようなコンピュータネットワーク)に接続するためのモデム、ネットワークカード、その他任意の装置でよい。通信装置159は、有線又は無線媒体を介して伝送される信号の送信又は受信のために利用できる。この伝送信号は、例えば、ワールドワイドウェブ(又は他の任意のコンピュータネットワーク)のサイトと交信して、文書画像や、本発明の実施例を遂行するための処理装置151によって実行可能な更新プログラムコード又は機能拡張用プログラムコードを受信するために用いることができる。
【0059】
一実施例によれば、メモリ153はシステムメモリ166、不揮発性大容量記憶装置167及びリムーバブル記憶媒体168からなる。リムーバブル記憶媒体168は、例えば、コンパクトディスク読み出し専用メモリ(CDROM)、フロッピーディスク、その他のリムーバブル記憶装置である。前述の粗マッチング段階と詳細マッチング段階の処理を行うための命令シーケンスなどのプログラムコードを、データ処理システム150によって読み取り可能なリムーバブル記憶媒体168に格納しておき、それを用いて以上に説明した実施例に従ってデータ処理システム150を動作させることができる。不揮発性大容量記憶装置167は、磁気テープ、磁気ディスク、光ディスク、電気的消去可能書き込み可能読み出し専用メモリ(EEPROM)、その他任意のコンピュータ読み取り可能媒体などの不揮発性記憶媒体に情報を格納するための装置でよい。以上に述べた実施例に従ってデータ処理システム150を動作させるためのデータとプログラムコードは、インストールプログラムの制御によって、リムーバブル記憶媒体168から不揮発性大容量記憶装置167へ転送してもよい。文書データベースも不揮発性大容量記憶装置167に保存してもよい。
【0060】
一実施例によれば、データ処理システム150の電源が投入されると、処理装置151又はダイレクト・メモリアクセス・コントローラ(不図示)のような他の装置によって、オペレーティングシステムのプログラムコードが不揮発性大容量記憶装置167からシステムメモリ166にロードされる。そうすると、オペレーティングシステムに含まれる命令シーケンスを処理装置151が実行して、前述の粗マッチング段階と詳細マッチング段階を遂行するためのプログラムコードなどの命令シーケンスを不揮発性大容量記憶装置167からシステムメモリ166にロードする。かくして、コンピュータ読み取り可能媒体から命令シーケンスを取得し、それを処理装置151で実行することにより、本発明の実施例を実施できる。
【0061】
本発明の実施例を実施するためのデータ処理システムについて説明したが、個々の処理操作を、それを実行するための布線ロジックを含む専用ハードウェア要素、又は、プログラムされた処理要素と布線ロジックの組合せによって遂行してもよい。以上に述べたことを、前述の操作がハードウェア要素の特定の組合せによって行われる実施例にのみ本発明を限定するものと理解すべきではない。
【0062】
以上、本発明を特定の実施例に関して説明した。しかし、特許請求の範囲に記載された本発明の範囲から逸脱しない限り、前記特定の実施例を様々に修正変更してよいことは明らかであろう。よって、本明細書及び図面は、説明のためのものと理解すべきであって、限定的にとらえるべきでない。
【0063】
【発明の効果】
以上に詳細に説明したように、本発明によれば、テキスト・ベースでもなく、またテキスト行ベースでもない、文書画像の特徴を利用した高精度な文書マッチングが可能になる。少ない計算量で高精度な文書マッチングが可能になる。文書画像が圧縮している場合においても、文書画像の伸長、再圧縮を必要とせずに高精度な文書マッチングが可能になる。文書画像のノイズや変形に頑健な高精度な文書マッチングが可能になる
【図面の簡単な説明】
【図1】 本発明による2段階文書マッチングの概要説明図である。
【図2】 一実施例による粗マッチング段階の説明図である。
【図3】 照会文書と、それに対応したビット分布、バンドパスフィルタ処理後の分布、位相群遅延密度グラフ及びパワースペクトル密度を示す図である。
【図4】 一致すべき2文書画像間によく見られる変形と、それら文書画像に対応したパワースペクトル密度を示す図である。
【図5】 (A)CCITTグループ4符号化でパスモード符号化に用いられる参照点の例を示す図である。
(B)CCITTグループ4符号化で水平モード符号化に用いられる参照点の例を示す図である。
【図6】 パスコードと端点の差異の説明図である。
【図7】 (A)下端点抽出の説明図である。
(B)上端点抽出の説明図である。
【図8】 スキュー修正後の端点集合と、対応した水平射影、水平射影の極大値及び一致する極大値を示す図である。
【図9】 1対のテキスト行領域内に位置する端点集合の例を示す図である。
【図10】 連続した端点マーカー間距離の量子化の説明図である。
【図11】 異なるN値に対する粗マッチング検索率をまとめて示す図である。
【図12】 正しく一致がとれた画像の例を示す図である。
【図13】 間違って一致がとれた画像の例を示す図である。
【図14】 異なる1記述子あたり連続距離数によるデータベースの詳細マッチング結果をまとめて示す図である。
【図15】 本発明によるデータ処理システムの一例を示すブロック図である。
【符号の説明】
12 照会文書
14 画像データベース
15 粗マッチング段階
20 詳細マッチング段階
25 ビット分布
27 大局的統計量
29 ビット分布
40 文書画像
87 パスコード・ダイアグラム
94 端点ダイヤグラム
95 上端点
96 下端点
97 x−高さライン
98 ベースライン
127,129 テキスト行領域
131 端点マップ
135A,135B アセンダ領域
137A,137B デセンダ領域
149A,149B 基準点
150 データ処理システム
151 処理装置
153 メモリ
155 表示装置
157 カーソル制御装置
158 キーパッド
159 通信装置
161 バス構造
166 システムメモリ
167 不揮発性大容量記憶装置
168 リムーバブル記憶媒体

Claims (24)

  1. 文書画像と該文書画像について予め生成されたビット分布及び該文書画像の記述子の集合とを対応付けて格納するデータベースを検索して照会文書画像とマッチング処理を行うデータ処理方法であって、
    前記照会文書画像のビット分布を生成し、前記生成した照会文書画像のビット分布と前記データベースに格納される各々の文書画像のビット分布とに基づいて、前記データベースに格納される少なくとも一つ以上の文書画像を候補集合として選出する粗マッチング処理ステップと、
    前記照会文書画像中の各テキスト行の上部に存在する上端点の集合と下部に存在する下端点の集合とを抽出し、前記抽出した上端点の集合及び下端点の集合に基づいて前記照会文書画像中のテキスト行を検出し、前記検出されたテキスト行内の選択された上端点の集合間の距離及び選択された下端点の集合間の距離に基づいて記述子の集合を生成し、前記照会文書画像の前記生成した記述子の集合と前記候補集合を構成する文書画像のそれぞれが有する記述子の集合とに基づいて、前記候補集合から前記照会文書画像に一致する文書画像を選出する詳細マッチング処理ステップと、
    からなることを特徴とするデータ処理方法。
  2. 前記粗マッチング処理ステップは、
    前記照会文書画像のビット分布に対してスペクトル解析を行って前記照会文書画像の大局的統計量を求め、
    前記照会文書画像の大局的統計量と前記データベースに格納される各文書画像の大局的統計量とに基づいて前記データベースに格納される少なくとも一つ以上の文書画像を初期候補の集合として選出し、
    前記照会文書画像のビット分布と前記選出された初期候補の集合に含まれる各文書画像のビット分布とに基づいて、前記データベースに格納される少なくとも一つ以上の文書画像を前記候補集合として選出することを特徴とする請求項1に記載のデータ処理方法。
  3. 前記粗マッチング処理ステップは、
    前記照会文書画像のビット分布を生成し、前記生成した照会文書画像のビット分布と前記データベースに格納される各々の文書画像のビット分布との相互相関をとり、
    該相互相関に基づいて前記データベースに格納される少なくとも一つ以上の文書画像を前記候補集合として選出することを特徴とする請求項1に記載のデータ処理方法。
  4. 前記大局的統計量は、前記照会文書中の支配的な行間隔の推定値、前記照会文書のテキスト量に関する推定値、前記照会文書中のテキスト位置に関する推定値、前記照会文書画像におけるテキスト密度の推定値、のいずれかであることを特徴とする請求項2に記載のデータ処理方法。
  5. 前記相互相関は、前記照会文書画像のビット分布と前記データベースに格納される各々の文書画像のビット分布との各々のベクトル積を生成することによってとられることを特徴とする請求項3に記載のデータ処理方法。
  6. 前記候補集合は、前記各々のベクトル積が閾値を超えた前記データベースに格納される文書画像の集合であることを特徴とする請求項5に記載のデータ処理方法。
  7. 前記選択された上端点は各テキスト行のアセンダ領域内の上端点であり、前記選択された下端点は各テキスト行のデセンダ領域内の下端点であることを特徴とする請求項1乃至6のいずれか1に記載のデータ処理方法。
  8. 前記アセンダ領域及びデセンダ領域は、前記テキスト行中の第1のテキスト行のx−高さラインより上の領域を前記第1のテキスト行の前記アセンダ領域と定め、前記第1のテキスト行のベースラインより下の領域を前記第1のテキスト行の前記デセンダ領域と定めることを特徴とする請求項7に記載のデータ処理方法。
  9. 前記ビット分布は、前記文書画像中の複数の画素行のそれぞれを符号化するために必要なビット数に基づいて生成されることを特徴とする請求項1乃至8のいずれか1に記載のデータ処理方法。
  10. 前記照会文書画像及び前記文書画像は所定の圧縮形式で圧縮されていることを特徴とする請求項1乃至9のいずれか1に記載のデータ処理方法。
  11. 前記所定の圧縮形式は、各画素ランが複数の符号化モード中の1つの符号モードによって符号化される方法で圧縮されていることを特徴とする請求項10記載のデータ処理方法。
  12. 前記詳細マッチング処理ステップによって選出された文書画像を表示装置に表示するステップをさらに含むことを特徴とする請求項1乃至11のいずれか1に記載のデータ処理方法。
  13. 文書画像と該文書画像について予め生成されたビット分布及び該文書画像の記述子の集合とを対応付けて格納するデータベースと、
    照会文書画像のビット分布を生成し、前記生成した照会文書画像のビット分布と前記データベースに格納される各々の文書画像のビット分布とに基づいて、前記データベースに格納される少なくとも一つ以上の文書画像を候補集合として選出する粗マッチング処理手段と、
    前記照会文書画像中の各テキスト行の上部に存在する上端点の集合と下部に存在する下端点の集合とを抽出し、前記抽出した上端点の集合及び下端点の集合に基づいて前記照会文書画像中のテキスト行を検出し、前記検出されたテキスト行内の選択された上端点の集合間の距離及び選択された下端点の集合間の距離に基づいて記述子の集合を生成し、前記照会文書画像の前記生成した記述子の集合と前記候補集合を構成する文書画像のそれぞれが有する記述子の集合とに基づいて、前記候補集合から前記照会文書画像に一致する文書画像を選出する詳細マッチング処理手段と、
    を備えることを特徴とするデータ処理装置。
  14. 前記粗マッチング処理手段は、
    前記照会文書画像のビット分布に対してスペクトル解析を行って前記照会文書画像の大局的統計量を求め、
    前記照会文書画像の大局的統計量と前記データベースに格納される各文書画像の大局的統計量とに基づいて前記データベースに格納される少なくとも一つ以上の文書画像を初期候補の集合として選出し、
    前記照会文書画像のビット分布と前記選出された初期候補の集合に含まれる各文書画像のビット分布とに基づいて、前記データベースに格納される少なくとも一つ以上の文書画像を前記候補集合として選出することを特徴とする請求項13に記載のデータ処理装置。
  15. 前記粗マッチング処理手段は、
    前記照会文書画像のビット分布を生成し、前記生成した照会文書画像のビット分布と前記データベースに格納される各々の文書画像のビット分布との相互相関をとり、
    該相互相関に基づいて前記データベースに格納される少なくとも一つ以上の文書画像を前記候補集合として選出することを特徴とする請求項13に記載のデータ処理装置。
  16. 前記大局的統計量は、前記照会文書中の支配的な行間隔の推定値、前記照会文書のテキスト量に関する推定値、前記照会文書中のテキスト位置に関する推定値、前記照会文書画像におけるテキスト密度の推定値、のいずれかであることを特徴とする請求項14に記載のデータ処理装置。
  17. 前記相互相関は、前記照会文書画像のビット分布と前記データベースに格納される各々の文書画像のビット分布との各々のベクトル積を生成することによってとられることを特徴とする請求項15に記載のデータ処理装置。
  18. 前記候補集合は、前記各々のベクトル積が閾値を超えた前記データベースに格納される文書画像の集合であることを特徴とする請求項17に記載のデータ処理装置。
  19. 前記選択された上端点は各テキスト行のアセンダ領域内の上端点であり、前記選択された下端点は各テキスト行のデセンダ領域内の下端点であることを特徴とする請求項13乃至18のいずれか1に記載のデータ処理装置。
  20. 前記アセンダ領域及びデセンダ領域は、前記テキスト行中の第1の テキスト行のx−高さラインより上の領域を前記第1のテキスト行の前記アセンダ領域と定め、前記第1のテキスト行のベースラインより下の領域を前記第1のテキスト行の前記デセンダ領域と定めることを特徴とする請求項19に記載のデータ処理装置。
  21. 前記ビット分布は、前記文書画像中の複数の画素行のそれぞれを符号化するために必要なビット数に基づいて生成されることを特徴とする請求項13乃至20のいずれか1に記載のデータ処理装置。
  22. 前記照会文書画像及び前記文書画像は所定の圧縮形式で圧縮されていることを特徴とする請求項13乃至21のいずれか1に記載のデータ処理装置。
  23. 前記所定の圧縮形式は、各画素ランが複数の符号化モード中の1つの符号モードによって符号化される方法で圧縮されていることを特徴とする請求項22記載のデータ処理装置。
  24. 前記詳細マッチング手段によって選出された文書画像を表示する表示手段をさらに備えることを特徴とする請求項13乃至23のいずれか1に記載のデータ処理装置。
JP30793899A 1998-11-03 1999-10-29 データ処理方法及び装置 Expired - Fee Related JP4023706B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/186041 1998-11-03
US09/186,041 US6363381B1 (en) 1998-11-03 1998-11-03 Compressed document matching

Publications (2)

Publication Number Publication Date
JP2000285139A JP2000285139A (ja) 2000-10-13
JP4023706B2 true JP4023706B2 (ja) 2007-12-19

Family

ID=22683415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30793899A Expired - Fee Related JP4023706B2 (ja) 1998-11-03 1999-10-29 データ処理方法及び装置

Country Status (2)

Country Link
US (3) US6363381B1 (ja)
JP (1) JP4023706B2 (ja)

Families Citing this family (169)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794062A (en) * 1995-04-17 1998-08-11 Ricoh Company Ltd. System and method for dynamically reconfigurable computing using a processing unit having changeable internal hardware organization
US6035266A (en) * 1997-04-16 2000-03-07 A.L. Air Data, Inc. Lamp monitoring and control system and method
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching
US6563948B2 (en) * 1999-04-29 2003-05-13 Intel Corporation Using an electronic camera to build a file containing text
FR2794600B1 (fr) * 1999-06-01 2001-08-17 Thomson Multimedia Sa Systeme de tatouage de donnees utilisant de nouvelles methodes d'insertion et de detection de tatouage
US7058817B1 (en) 1999-07-02 2006-06-06 The Chase Manhattan Bank System and method for single sign on process for websites with multiple applications and services
US6584221B1 (en) * 1999-08-30 2003-06-24 Mitsubishi Electric Research Laboratories, Inc. Method for image retrieval with multiple regions of interest
US6671407B1 (en) 1999-10-19 2003-12-30 Microsoft Corporation System and method for hashing digital images
WO2001033477A2 (en) 1999-11-04 2001-05-10 Jpmorgan Chase Bank System and method for automated financial project management
US8571975B1 (en) 1999-11-24 2013-10-29 Jpmorgan Chase Bank, N.A. System and method for sending money via E-mail over the internet
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
JP2001251507A (ja) * 2000-03-03 2001-09-14 Fujitsu Ltd 画像処理装置
US7426530B1 (en) 2000-06-12 2008-09-16 Jpmorgan Chase Bank, N.A. System and method for providing customers with seamless entry to a remote server
US10185936B2 (en) 2000-06-22 2019-01-22 Jpmorgan Chase Bank, N.A. Method and system for processing internet payments
WO2002012997A1 (en) * 2000-08-08 2002-02-14 Fineground Networks Method and system for parameterized web documents
FR2813743B1 (fr) * 2000-09-06 2003-01-03 Claude Seyrat Procede de compression/decompression de documents structures
US8335855B2 (en) 2001-09-19 2012-12-18 Jpmorgan Chase Bank, N.A. System and method for portal infrastructure tracking
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7103556B2 (en) * 2000-11-02 2006-09-05 Jpmorgan Chase Bank, N.A. System and method for aggregate portfolio client support
US6978047B2 (en) * 2000-11-29 2005-12-20 Etreppid Technologies Llc Method and apparatus for storing digital video content provided from a plurality of cameras
US20020087603A1 (en) * 2001-01-02 2002-07-04 Bergman Eric D. Change tracking integrated with disconnected device document synchronization
AU2002226651A1 (en) * 2001-01-23 2002-08-06 Flash Networks Ltd. System and method for data re-compression for communication over ip
US6741749B2 (en) * 2001-01-24 2004-05-25 Advanced Digital Systems, Inc. System, device, computer program product, and method for representing a plurality of electronic ink data points
US7310687B2 (en) * 2001-03-23 2007-12-18 Cisco Technology, Inc. Methods and systems for managing class-based condensation
US7392287B2 (en) * 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
WO2002082271A1 (en) 2001-04-05 2002-10-17 Audible Magic Corporation Copyright detection and protection system and method
US7272857B1 (en) * 2001-04-20 2007-09-18 Jpmorgan Chase Bank, N.A. Method/system for preventing identity theft or misuse by restricting access
US8849716B1 (en) 2001-04-20 2014-09-30 Jpmorgan Chase Bank, N.A. System and method for preventing identity theft or misuse by restricting access
US6975743B2 (en) * 2001-04-24 2005-12-13 Microsoft Corporation Robust and stealthy video watermarking into regions of successive frames
US6996273B2 (en) 2001-04-24 2006-02-07 Microsoft Corporation Robust recognizer of perceptually similar content
US6973574B2 (en) * 2001-04-24 2005-12-06 Microsoft Corp. Recognizer of audio-content in digital signals
US7356188B2 (en) * 2001-04-24 2008-04-08 Microsoft Corporation Recognizer of text-based work
US7020775B2 (en) * 2001-04-24 2006-03-28 Microsoft Corporation Derivation and quantization of robust non-local characteristics for blind watermarking
US7689506B2 (en) 2001-06-07 2010-03-30 Jpmorgan Chase Bank, N.A. System and method for rapid updating of credit information
US7266839B2 (en) 2001-07-12 2007-09-04 J P Morgan Chase Bank System and method for providing discriminated content to network users
US8972481B2 (en) * 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US7146395B2 (en) * 2001-08-20 2006-12-05 Ricoh Company Ltd. Banyan switched processor datapath
US20030044012A1 (en) * 2001-08-31 2003-03-06 Sharp Laboratories Of America, Inc. System and method for using a profile to encrypt documents in a digital scanner
US7103576B2 (en) 2001-09-21 2006-09-05 First Usa Bank, Na System for providing cardless payment
US7321858B2 (en) * 2001-11-30 2008-01-22 United Negro College Fund, Inc. Selection of individuals from a pool of candidates in a competition system
US7987501B2 (en) 2001-12-04 2011-07-26 Jpmorgan Chase Bank, N.A. System and method for single session sign-on
JP4011906B2 (ja) * 2001-12-13 2007-11-21 富士通株式会社 プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
US7095907B1 (en) * 2002-01-10 2006-08-22 Ricoh Co., Ltd. Content and display device dependent creation of smaller representation of images
US20060098880A1 (en) * 2002-02-22 2006-05-11 Montgomery Dennis L Method and apparatus for storing digital video content provided from a plurality of cameras
US20030163785A1 (en) * 2002-02-28 2003-08-28 Hui Chao Composing unique document layout for document differentiation
US20180165441A1 (en) 2002-03-25 2018-06-14 Glenn Cobourn Everhart Systems and methods for multifactor authentication
US7095873B2 (en) 2002-06-28 2006-08-22 Microsoft Corporation Watermarking via quantization of statistics of overlapping regions
US7006703B2 (en) 2002-06-28 2006-02-28 Microsoft Corporation Content recognizer via probabilistic mirror distribution
US20050229046A1 (en) * 2002-08-02 2005-10-13 Matthias Marke Evaluation of received useful information by the detection of error concealment
JP4265183B2 (ja) * 2002-09-13 2009-05-20 富士ゼロックス株式会社 画像欠陥検査装置
US7536433B2 (en) * 2002-09-25 2009-05-19 Jpmorgan Chase Bank, N.A. System and method for customizing a portal environment
US7058660B2 (en) 2002-10-02 2006-06-06 Bank One Corporation System and method for network-based project management
US8301493B2 (en) 2002-11-05 2012-10-30 Jpmorgan Chase Bank, N.A. System and method for providing incentives to consumers to share information
US6958103B2 (en) * 2002-12-23 2005-10-25 Kimberly-Clark Worldwide, Inc. Entangled fabrics containing staple fibers
US20040210575A1 (en) * 2003-04-18 2004-10-21 Bean Douglas M. Systems and methods for eliminating duplicate documents
US6990224B2 (en) * 2003-05-15 2006-01-24 Federal Reserve Bank Of Atlanta Method and system for communicating and matching electronic files for financial transactions
GB2404269A (en) * 2003-07-24 2005-01-26 Hewlett Packard Development Co Estimating symmetry in a document
US7493322B2 (en) 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US7610190B2 (en) * 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US7912291B2 (en) * 2003-11-10 2011-03-22 Ricoh Co., Ltd Features for retrieval and similarity matching of documents from the JPEG 2000-compressed domain
US7831832B2 (en) * 2004-01-06 2010-11-09 Microsoft Corporation Digital goods representation based upon matrix invariances
US7475061B2 (en) * 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
US20050165690A1 (en) * 2004-01-23 2005-07-28 Microsoft Corporation Watermarking via quantization of rational statistics of regions
JP4532915B2 (ja) * 2004-01-29 2010-08-25 キヤノン株式会社 パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
US7770014B2 (en) * 2004-04-30 2010-08-03 Microsoft Corporation Randomized signal transforms and their applications
US7949666B2 (en) 2004-07-09 2011-05-24 Ricoh, Ltd. Synchronizing distributed work through document logs
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US9535624B1 (en) * 2004-09-13 2017-01-03 EMC IP Holding Company LLC Duplicate management
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US9405751B2 (en) * 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US7587412B2 (en) * 2005-08-23 2009-09-08 Ricoh Company, Ltd. Mixed media reality brokerage network and methods of use
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US7991778B2 (en) * 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8005831B2 (en) * 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US7669148B2 (en) * 2005-08-23 2010-02-23 Ricoh Co., Ltd. System and methods for portable device for mixed media system
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US7917554B2 (en) * 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US8949287B2 (en) * 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US7639387B2 (en) * 2005-08-23 2009-12-29 Ricoh Co., Ltd. Authoring tools using a mixed media environment
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US7920759B2 (en) * 2005-08-23 2011-04-05 Ricoh Co. Ltd. Triggering applications for distributed action execution and use of mixed media recognition as a control input
US8369655B2 (en) * 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8195659B2 (en) * 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US9384619B2 (en) * 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US8086038B2 (en) * 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US8510283B2 (en) * 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US7885955B2 (en) * 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US9171202B2 (en) * 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8276088B2 (en) * 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US7672543B2 (en) * 2005-08-23 2010-03-02 Ricoh Co., Ltd. Triggering applications based on a captured text in a mixed media environment
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8600989B2 (en) * 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8838591B2 (en) * 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
KR100636181B1 (ko) * 2004-10-01 2006-10-19 삼성전자주식회사 스캔 문서 삽입 방법 및 장치
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
JP4301193B2 (ja) * 2005-03-31 2009-07-22 ソニー株式会社 画像比較装置及び方法、画像検索装置及び方法、並びにプログラム及び記録媒体
US20060242568A1 (en) * 2005-04-26 2006-10-26 Xerox Corporation Document image signature identification systems and methods
US7356524B2 (en) * 2005-05-13 2008-04-08 Sap Ag Query runtime estimation using statistical query records
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
US8583926B1 (en) 2005-09-19 2013-11-12 Jpmorgan Chase Bank, N.A. System and method for anti-phishing authentication
US20070076869A1 (en) * 2005-10-03 2007-04-05 Microsoft Corporation Digital goods representation based upon matrix invariants using non-negative matrix factorizations
JP4859025B2 (ja) * 2005-12-16 2012-01-18 株式会社リコー 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US8793490B1 (en) 2006-07-14 2014-07-29 Jpmorgan Chase Bank, N.A. Systems and methods for multifactor authentication
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8489987B2 (en) * 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8201076B2 (en) * 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US9176984B2 (en) * 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9063952B2 (en) * 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
JP4257925B2 (ja) * 2006-08-24 2009-04-30 シャープ株式会社 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体
US8479004B2 (en) * 2006-08-31 2013-07-02 Ricoh Co., Ltd Paper-based document logging
US8006094B2 (en) 2007-02-21 2011-08-23 Ricoh Co., Ltd. Trustworthy timestamps and certifiable clocks using logs linked by cryptographic hashes
US20080243688A1 (en) * 2007-03-28 2008-10-02 Hart Peter E Method and Apparatus for Recording Transactions with a Portable Logging Device
US8996483B2 (en) * 2007-03-28 2015-03-31 Ricoh Co., Ltd. Method and apparatus for recording associations with logs
US8473735B1 (en) 2007-05-17 2013-06-25 Jpmorgan Chase Systems and methods for managing digital certificates
US7693908B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Determination of time dependency of search queries
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
JP2009110211A (ja) * 2007-10-29 2009-05-21 Sony Corp 情報符号化装置および方法、情報検索装置および方法、情報検索システムおよび方法、並びにプログラム
JP5058002B2 (ja) * 2008-01-21 2012-10-24 株式会社豊田中央研究所 物体検出装置
US8321682B1 (en) 2008-01-24 2012-11-27 Jpmorgan Chase Bank, N.A. System and method for generating and managing administrator passwords
US8240554B2 (en) * 2008-03-28 2012-08-14 Keycorp System and method of financial instrument processing with duplicate item detection
US8979744B2 (en) * 2008-09-08 2015-03-17 Covidien Lp Tunneling system
US8295651B2 (en) * 2008-09-23 2012-10-23 Microsoft Corporation Coherent phrase model for efficient image near-duplicate retrieval
US8185733B2 (en) * 2008-10-02 2012-05-22 Ricoh Co., Ltd. Method and apparatus for automatically publishing content based identifiers
US8249343B2 (en) * 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
US9710492B2 (en) * 2008-11-12 2017-07-18 Nokia Technologies Oy Method and apparatus for representing and identifying feature descriptors utilizing a compressed histogram of gradients
US8122339B2 (en) * 2009-04-28 2012-02-21 Lexmark International., inc. Automatic forms processing systems and methods
US8261180B2 (en) * 2009-04-28 2012-09-04 Lexmark International, Inc. Automatic forms processing systems and methods
US8214733B2 (en) * 2010-04-28 2012-07-03 Lexmark International, Inc. Automatic forms processing systems and methods
US8385660B2 (en) * 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US9608826B2 (en) 2009-06-29 2017-03-28 Jpmorgan Chase Bank, N.A. System and method for partner key management
US20110026816A1 (en) * 2009-07-29 2011-02-03 Vaughn Robert L Rapid image categorization
US8949260B2 (en) * 2009-10-09 2015-02-03 Ricoh Co., Ltd. Method and apparatus for secure and oblivious document matching
JP2011223237A (ja) * 2010-04-08 2011-11-04 Sony Corp 画像比較装置及び方法、並びにプログラム
US8086548B2 (en) * 2010-05-05 2011-12-27 Palo Alto Research Center Incorporated Measuring document similarity by inferring evolution of documents through reuse of passage sequences
US8285058B2 (en) * 2010-05-14 2012-10-09 Palo Alto Research Center Incorporated Learning image templates for content anchoring and data extraction
US20120128228A1 (en) * 2010-11-18 2012-05-24 D2S, Inc. Method for Matching of Patterns
GB2490490A (en) 2011-04-28 2012-11-07 Nds Ltd Encoding natural-language text and detecting plagiarism
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US8995719B2 (en) * 2012-12-10 2015-03-31 Intel Corporation Techniques for improved image disparity estimation
US9710806B2 (en) 2013-02-27 2017-07-18 Fiserv, Inc. Systems and methods for electronic payment instrument repository
US20140279303A1 (en) * 2013-03-15 2014-09-18 Fiserv, Inc. Image capture and processing for financial transactions
US9419957B1 (en) 2013-03-15 2016-08-16 Jpmorgan Chase Bank, N.A. Confidence-based authentication
US10148726B1 (en) 2014-01-24 2018-12-04 Jpmorgan Chase Bank, N.A. Initiating operating system commands based on browser cookies
US10565498B1 (en) 2017-02-28 2020-02-18 Amazon Technologies, Inc. Deep neural network-based relationship analysis with multi-feature token model
US11188748B2 (en) 2019-09-16 2021-11-30 International Business Machines Corporation Scalable structure learning via context-free recursive document decomposition
US11625555B1 (en) 2020-03-12 2023-04-11 Amazon Technologies, Inc. Artificial intelligence system with unsupervised model training for entity-pair relationship analysis
US11514321B1 (en) 2020-06-12 2022-11-29 Amazon Technologies, Inc. Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
US11423072B1 (en) 2020-07-31 2022-08-23 Amazon Technologies, Inc. Artificial intelligence system employing multimodal learning for analyzing entity record relationships
US11620558B1 (en) 2020-08-25 2023-04-04 Amazon Technologies, Inc. Iterative machine learning based techniques for value-based defect analysis in large data sets
US20230325354A1 (en) * 2022-04-12 2023-10-12 Dell Products L.P. Hyperparameter optimization in file compression using sequence alignment

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4292622A (en) * 1980-02-21 1981-09-29 Hendrix Electronics, Inc. System and method for processing horizontal line characteristics in an image
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
US4809081A (en) * 1987-06-10 1989-02-28 Gould Inc. Method and apparatus for decompressing encoded data
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5761655A (en) * 1990-06-06 1998-06-02 Alphatronix, Inc. Image file storage and retrieval system
EP0514688A2 (en) * 1991-05-21 1992-11-25 International Business Machines Corporation Generalized shape autocorrelation for shape acquisition and recognition
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
DE69332315T2 (de) * 1992-02-25 2003-01-23 Fujitsu Ltd., Kawasaki Bildbinarisierungssystem
US5579471A (en) * 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
JP3143532B2 (ja) 1992-11-30 2001-03-07 キヤノン株式会社 画像検索装置及び方法
US5375176A (en) * 1993-04-19 1994-12-20 Xerox Corporation Method and apparatus for automatic character type classification of European script documents
JPH0773190A (ja) * 1993-04-29 1995-03-17 Matsushita Electric Ind Co Ltd ペンベースコンピューターシステム用絵文字ネーミング
US6086706A (en) * 1993-12-20 2000-07-11 Lucent Technologies Inc. Document copying deterrent method
US5768420A (en) * 1994-01-21 1998-06-16 Lucent Technologies Inc. Method and apparatus for handwriting recognition using invariant features
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US6268935B1 (en) * 1994-04-15 2001-07-31 Minolta Co., Ltd. Image processor
US5636294A (en) * 1994-08-09 1997-06-03 Unisys Corporation Method and apparatus for truncation of images during data compression
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
JP3720412B2 (ja) * 1995-05-01 2005-11-30 キヤノン株式会社 情報処理方法及び装置
US5867597A (en) * 1995-09-05 1999-02-02 Ricoh Corporation High-speed retrieval by example
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5915250A (en) * 1996-03-29 1999-06-22 Virage, Inc. Threshold-based comparison
US5870754A (en) * 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US5892808A (en) * 1996-06-28 1999-04-06 Techne Systems, Inc. Method and apparatus for feature detection in a workpiece
US6104834A (en) * 1996-08-01 2000-08-15 Ricoh Company Limited Matching CCITT compressed document images
US5940825A (en) * 1996-10-04 1999-08-17 International Business Machines Corporation Adaptive similarity searching in sequence databases
US5930783A (en) * 1997-02-21 1999-07-27 Nec Usa, Inc. Semantic and cognition based image retrieval
US5806061A (en) * 1997-05-20 1998-09-08 Hewlett-Packard Company Method for cost-based optimization over multimeida repositories
US5995978A (en) * 1997-09-24 1999-11-30 Ricoh Company, Ltd. Navigation system for document image database
US6006226A (en) * 1997-09-24 1999-12-21 Ricoh Company Limited Method and system for document image feature extraction
US5987456A (en) * 1997-10-28 1999-11-16 University Of Masschusetts Image retrieval by syntactic characterization of appearance
US6026411A (en) * 1997-11-06 2000-02-15 International Business Machines Corporation Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching

Also Published As

Publication number Publication date
US6928435B2 (en) 2005-08-09
US20050256857A1 (en) 2005-11-17
US7359901B2 (en) 2008-04-15
US6363381B1 (en) 2002-03-26
JP2000285139A (ja) 2000-10-13
US20020116379A1 (en) 2002-08-22

Similar Documents

Publication Publication Date Title
JP4023706B2 (ja) データ処理方法及び装置
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US5359673A (en) Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
US6546136B1 (en) Matching CCITT compressed document images
JP4065460B2 (ja) 画像処理方法及び装置
JP3689455B2 (ja) 情報処理方法及び装置
JP3792747B2 (ja) 文字認識装置及び方法
EP0543594B1 (en) A method for deriving wordshapes for subsequent comparison
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JPH10116316A (ja) 文字認識方法及び装置
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
JPH0772905B2 (ja) 記号列の認識方法
Khurshid et al. Word spotting in historical printed documents using shape and sequence comparisons
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
JP2000182064A (ja) ドキュメント処理システム及びインデックス情報獲得方法
JP2006031546A (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
US20090052786A1 (en) Computer vision-based methods for enhanced jbig2 and generic bitonal compression
Wang et al. Chinese document image retrieval system based on proportion of black pixel area in a character image
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
Lu et al. Word searching in document images using word portion matching
KR0186172B1 (ko) 문자 인식장치의 접촉문자 분리 및 특징 추출방법
Lee et al. Group 4 compressed document matching
Doulgeri et al. Retrieval of historical documents by word spotting
Hull et al. Lee et al.
Lee et al. Group 4 compressed document matching using endpoints

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070928

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees