JP4388030B2 - 文書自動分類システムと方法及びその記録媒体 - Google Patents
文書自動分類システムと方法及びその記録媒体 Download PDFInfo
- Publication number
- JP4388030B2 JP4388030B2 JP2006128111A JP2006128111A JP4388030B2 JP 4388030 B2 JP4388030 B2 JP 4388030B2 JP 2006128111 A JP2006128111 A JP 2006128111A JP 2006128111 A JP2006128111 A JP 2006128111A JP 4388030 B2 JP4388030 B2 JP 4388030B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- straight lines
- basic
- straight
- digitized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000012545 processing Methods 0.000 claims description 25
- 238000006073 displacement reaction Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Character Input (AREA)
Description
11 データベース
12 位置決め情報の取得装置
13 位置決め装置
14 文書比較装置
31 基本文書
32、32’ デジタル化文書
S21〜S23 文書自動分類方法の手順
Claims (15)
- デジタル文書を分類する文書自動分類システムであり、前記デジタル文書が少なくとも一の表を含み、前記システムが、
少なくとも一の表を含む、少なくとも一の基本文書を保存するデータベースと、
デジタル化文書にある複数の直線の位置決め情報を取得する位置決め情報の取得装置、前記位置決め情報が前記複数の直線の端点座標を含み、前記複数の直線の縁部直線の任意の二直線間の距離とそのうちの一直線の長さとの比、および任意の二直線の投影重なり比を含み、
動的計画法により、前記複数の直線の位置決め情報と前記基本文書の直線との比較を行い、前記基本文書にある対応直線を抽出する位置決め装置と、
前記複数の直線と前記基本文書の対応する直線を比較し、位置決め処理によって前記複数の直線と前記基本文書の対応直線を重ね合わせ、さらに、前記デジタル化文書にある全ての直線とこれら直線に最も近い位置にある前記基本文書との距離を基に、前記デジタル文書と前記基本文書が同じ種類であるかどうかを判別する文書比較装置と、
を有することを特徴とする文書自動分類システム。 - 前記位置決め処理が回転、平行移動、等比例拡大縮小、又はこれらを組合わせた処理であることを特徴とする請求項1記載の文書自動分類システム。
- 前記回転処理は、前記複数の直線と、水平線の夾角を補正することによって、前記複数の直線と前記基本文書にある対応直線を重ね合わせ、前記平行移動処理は、前記複数の直線と前記基本文書にある対応直線の端点座標から、前記デジタル化文書の水平変位量および垂直変位量を求め補正を行って、前記複数の直線と前記基本文書にある対応直線を重ね合わせ、前記等比例拡大縮小処理は、前記複数の直線の縁部直線の任意の二直線の間の距離とそのうちの一直線の長さとの比を保持したまま、又は任意の二直線の投影重なり比を変えずに、拡大縮小を行い、前記複数の直線と前記基本文書の対応直線を重ねあわせることを特徴とする請求項2記載の文書自動分類システム。
- 前記文書比較装置が前記デジタル化文書と前記データベースにある前記基本文書とを比較し、前記デジタル化文書にある全ての直線と最も近い位置にある前記基本文書の直線との間の距離の和が最も小さい時、前記デジタル化文書と前記基本文書が同じ種類であると認定することを特徴とする請求項1記載の文書自動分類システム。
- 前記位置決め情報取得装置が先に細線化の画像処理を行い、その後前記デジタル化文書にある前記表の複数の直線の位置決め情報を取得することを特徴とする請求項1記載の文書自動分類システム。
- 少なくとも一の表を含むデジタル化文書を分類する、コンピュータにより実行する文書自動分類方法であり、
少なくとも一の表を含む、少なくとも一の基本文書をデータベースに保存するステップと、
前記デジタル化文書にある複数の直線の位置決め情報を取得するステップ、このうち前記位置決め情報が前記複数の直線の端点座標を含み、前記複数の直線の縁部直線の任意の二直線間の距離とそのうちの一直線の長さとの比、および任意の二直線の投影重なり比を含み、
動的計画法により、前記複数の直線の位置決め情報を基に前記基本文書の直線との比較を行い、前記基本文書の対応直線を抽出するステップと、
前記複数の直線と前記基本文書の対応する直線を比較し、位置決め処理によって、前記複数の直線と前記基本文書の対応直線を重ね合わせ、更に、前記デジタル化文書にある全ての直線と最も近い位置にある前記基本文書の直線との距離を基に、前記デジタル化文書と前記基本文書が同じ種類であるかどうかを判別するステップと、
を有することを特徴とする文書自動分類方法。 - 前記位置決め処理が、回転、平行移動、等比例拡大縮小、又はこれらを組合わせた処理であることを特徴とする請求項6記載の文書自動分類方法。
- 前記回転処理は、前記複数の直線と、水平線の夾角を補正することによって、前記複数の直線と前記基本文書にある対応直線を重ね合わせ、
前記平行移動処理は、前記複数の直線と前記基本文書にある対応直線の端点座標から、前記デジタル化文書の水平変位量および垂直変位量を求め補正を行って、前記複数の直線と前記基本文書にある対応直線を重ね合わせ、
前記等比例拡大縮小処理は、前記複数の直線の縁部直線の任意の二直線の間の距離とそのうちの一直線の長さとの比を保持したまま、又は任意の二直線の投影重なり比を変えずに、拡大縮小を行い、前記複数の直線と前記基本文書の対応直線を重ねあわせることを特徴とする請求項7記載の文書自動分類方法。 - 前記文書比較ステップが、前記デジタル化文書と前記データベースの前記基本文書とを比較し、前記デジタル化文書の全ての直線と最も近い位置にある前記基本文書の直線との間の距離の和が最も小さい時、前記デジタル化文書と前記基本文書が同じ種類であると認定することを特徴とする請求項6の文書自動分類方法。
- 前記位置決め情報の取得ステップが、先に細線化の画像処理を行い、その後前記デジタル化文書にある前記表の複数の直線の位置決め情報を取得することを特徴とする請求項6記載の文書自動分類方法。
- 文書自動分類方法を保存したコンピュータで読取り可能な記録媒体であって、前記方法をコンピュータで読取ったのち、少なくとも一の表を含むデジタル文書を分類する方法が、
少なくとも一の表を含む、少なくとも一の基本文書をデータベースに保存するステップと、
前記デジタル化文書にある複数の直線の位置決め情報を取得するステップであり、このうち前記位置決め情報が前記複数の直線の端点座標を含み、前記複数の直線の縁部直線の任意の二直線間の距離とそのうちの一直線の長さとの比、および任意の二直線の投影重なり比を含み、
動的計画法により、前記複数の直線の位置決め情報を基に前記基本文書の直線との比較を行い、前記基本文書の対応直線を抽出するステップと、
前記複数の直線と前記基本文書の対応する直線を比較し、位置決め処理によって、前記複数の直線と前記基本文書の対応直線を重ね合わせ、更に、前記デジタル化文書にある全ての直線と最も近い位置にある前記基本文書の直線との距離を基に、前記デジタル化文書と前記基本文書が同じ種類であるかどうかを判別するステップと、
を有することを特徴とするコンピュータで読取り可能な記録媒体。 - 前記位置決め処理が、回転、平行移動、等比例拡大縮小、又はこれらを組合わせた処理であることを特徴とする請求項11記載のコンピュータで読取り可能な記録媒体。
- 前記回転処理は、前記複数の直線と、水平線の夾角を補正することによって、前記複数の直線と前記基本文書にある対応直線を重ね合わせ、
前記平行移動処理は、前記複数の直線と前記基本文書にある対応直線の端点座標から、前記デジタル化文書の水平変位量および垂直変位量を求め補正を行って、前記複数の直線と前記基本文書にある対応直線を重ね合わせ、
前記等比例拡大縮小処理は、前記複数の直線の縁部直線の任意の二直線の間の距離とそのうちの一直線の長さとの比を保持したまま、又は任意の二直線の投影重なり比を変えずに、拡大縮小を行い、前記複数の直線と前記基本文書の対応直線を重ねあわせることを特徴とする請求項12記載のコンピュータで読取り可能な記録媒体。 - 前記文書比較ステップが、前記デジタル化文書と前記データベースの前記基本文書とを比較し、前記デジタル化文書の全ての直線と最も近い位置にある前記基本文書の直線との間の距離の和が最も小さい時、前記デジタル化文書と前記基本文書が同じ種類であると認定することを特徴とする請求項11記載のコンピュータで読取り可能な記録媒体。
- 前記位置決め情報の取得ステップが、先に細線化の画像処理を行い、その後前記デジタル化文書にある前記表の複数の直線の位置決め情報を取得することを特徴とする請求項11記載のコンピュータで読取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW094114411A TWI319153B (en) | 2005-05-04 | 2005-05-04 | System, method and medium of automatic document classification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006313550A JP2006313550A (ja) | 2006-11-16 |
JP4388030B2 true JP4388030B2 (ja) | 2009-12-24 |
Family
ID=37394098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006128111A Expired - Fee Related JP4388030B2 (ja) | 2005-05-04 | 2006-05-02 | 文書自動分類システムと方法及びその記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7602971B2 (ja) |
JP (1) | JP4388030B2 (ja) |
TW (1) | TWI319153B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI332635B (en) * | 2007-01-05 | 2010-11-01 | Compal Electronics Inc | Method for determing oriention of chinese words |
CN102023966B (zh) * | 2009-09-16 | 2014-03-26 | 鸿富锦精密工业(深圳)有限公司 | 用于合约比较的计算机***及合约比较方法 |
TWI423154B (zh) * | 2009-12-30 | 2014-01-11 | Univ Nat Chi Nan | Book Inventory Management System and Its Method |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
US8831361B2 (en) * | 2012-03-09 | 2014-09-09 | Ancora Software Inc. | Method and system for commercial document image classification |
EP2875446A4 (en) * | 2012-07-23 | 2016-09-28 | Hewlett Packard Development Co | CLASSIFICATION OF DOCUMENT |
US9218701B2 (en) | 2013-05-28 | 2015-12-22 | Bank Of America Corporation | Image overlay for duplicate image detection |
US9298981B1 (en) * | 2014-10-08 | 2016-03-29 | Xerox Corporation | Categorizer assisted capture of customer documents using a mobile device |
US11436853B1 (en) * | 2019-03-25 | 2022-09-06 | Idemia Identity & Security USA LLC | Document authentication |
US11335110B2 (en) * | 2020-08-05 | 2022-05-17 | Verizon Patent And Licensing Inc. | Systems and methods for processing a table of information in a document |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867597A (en) * | 1995-09-05 | 1999-02-02 | Ricoh Corporation | High-speed retrieval by example |
JP3108015B2 (ja) * | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
US6178417B1 (en) * | 1998-06-29 | 2001-01-23 | Xerox Corporation | Method and means of matching documents based on text genre |
US9460414B2 (en) * | 2001-08-28 | 2016-10-04 | Eugene M. Lee | Computer assisted and/or implemented process and system for annotating and/or linking documents and data, optionally in an intellectual property management system |
US6925475B2 (en) * | 2001-10-12 | 2005-08-02 | Commissariat A L'energie Atomique | Process and apparatus for management of multimedia databases |
JP4423164B2 (ja) * | 2004-10-28 | 2010-03-03 | 株式会社日立製作所 | 知識共有システム及び情報公開制御方法 |
-
2005
- 2005-05-04 TW TW094114411A patent/TWI319153B/zh active
- 2005-12-07 US US11/295,455 patent/US7602971B2/en active Active
-
2006
- 2006-05-02 JP JP2006128111A patent/JP4388030B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
TW200639691A (en) | 2006-11-16 |
TWI319153B (en) | 2010-01-01 |
JP2006313550A (ja) | 2006-11-16 |
US7602971B2 (en) | 2009-10-13 |
US20060251326A1 (en) | 2006-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4388030B2 (ja) | 文書自動分類システムと方法及びその記録媒体 | |
JP4594372B2 (ja) | ドキュメント画像からのパラメータ化された形状の認識方法 | |
JP4623676B2 (ja) | 動的なコネクタ解析のための方法、装置及び記憶媒体 | |
KR101235226B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 기록 매체 | |
JP2012203458A (ja) | 画像処理装置及びプログラム | |
JP4535584B2 (ja) | ディジタル画像処理方法 | |
JP2008158774A (ja) | 画像処理方法、画像処理装置、プログラム、及び記憶媒体 | |
JP2016062524A (ja) | データ処理システム、データ処理方法およびデータ処理プログラム | |
JP4395188B2 (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
JP2010186389A (ja) | 情報処理装置及び情報処理プログラム | |
Luo et al. | Multi-operator image retargeting with automatic integration of direct and indirect seam carving | |
KR101377910B1 (ko) | 화상 처리 방법 및 화상 처리 장치 | |
JP2008134791A (ja) | 画像処理装置及び画像処理プログラム | |
US10679049B2 (en) | Identifying hand drawn tables | |
JP2014170452A (ja) | 画像処理装置及びプログラム | |
JP6137464B2 (ja) | 画像処理装置および画像処理プログラム | |
JP3638845B2 (ja) | 画像処理装置及び方法 | |
JP2007011529A (ja) | Ocr処理における文字認識位置の決定方法 | |
JP6194781B2 (ja) | 画像処理装置及びプログラム | |
JP2021196932A (ja) | 家屋異動検出システム、家屋異動検出方法及び家屋異動検出プログラム | |
CN112419208A (zh) | 一种基于施工图审查矢量图纸编译方法及*** | |
JP2020113002A (ja) | 表示比較プログラム、装置、及び方法 | |
JP2009053827A (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP4687558B2 (ja) | 画像照合装置、画像照合方法及びプログラム | |
CN107092909A (zh) | 基于三角形相似定理的角度检测算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090909 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091001 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4388030 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121009 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121009 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131009 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |