JP2021056722A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2021056722A JP2021056722A JP2019178597A JP2019178597A JP2021056722A JP 2021056722 A JP2021056722 A JP 2021056722A JP 2019178597 A JP2019178597 A JP 2019178597A JP 2019178597 A JP2019178597 A JP 2019178597A JP 2021056722 A JP2021056722 A JP 2021056722A
- Authority
- JP
- Japan
- Prior art keywords
- type
- document
- specified
- title
- item value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 13
- 238000000034 method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 abstract description 28
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000010191 image analysis Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本実施の形態における画像形成装置10のブロック構成図である。図2は、本実施の形態における画像形成装置10のハードウェア構成図である。本実施の形態における画像形成装置10は、本発明に係る情報処理装置を搭載し、コピー機能、スキャナ機能等各種機能を搭載した複合機で実現可能である。図2において、ROM2には、本装置の制御や後述する本実施の形態の特徴的な処理機能を実現するための各種プログラムが格納されている。CPU1は、ROM2に格納された各種プログラムにしたがってスキャナ6やプリンタ7等本装置に搭載された各種機構の動作制御や各種機能を実現する。RAM3は、プログラム実行時のワークメモリや通信バッファとして利用される。HDD(Hard Disk Drive)4は、スキャナ6を使用して読み取った電子文書などを格納する。操作パネル5は、ユーザからの指示の受け付け、情報の表示を行う。スキャナ6は、ユーザがセットした原稿を読み取り、電子文書としてHDD4等に蓄積する。プリンタ7は、CPU1で実行される制御プログラムからの指示に従い出力用紙上に画像を印字する。ネットワークインタフェース(IF)8は、ネットワークを接続し、外部装置との電子データの送受信、またブラウザ経由による本装置へのアクセスなどに利用される。アドレスデータバス9は、CPU1の制御対象となる各種機構と接続してデータの通信を行う。
上記実施の形態1では、帳票を1枚ずつ処理する場合を想定しているが、業務上、複数の帳票を月末等にまとめて処理する場合がある。本実施の形態では、ユーザが複数の帳票を連続してスキャナ6に読み取らせた場合、関連性のある帳票毎に分類して格納できるようにしたことを特徴としている。
Claims (7)
- プロセッサを備え、
前記プロセッサは、
文書の読取画像から抽出された当該文書の種類を表す表題を用いて当該種類の文書が分類される文書の種別を特定し、
文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する、
ことを特徴とする情報処理装置。 - 前記文書の種別は、当該文書の表題が抽出されると、予め定められている文書の種別に当該種別に分類される表題を対応付けして含む種別分類情報が参照されることによって特定される、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記種別分類情報に含まれる表題は、当該種別に分類される種類の文書の表題であり、
前記種別は、少なくとも発注書、請求書又は領収書を含む、
ことを特徴とする請求項2に記載の情報処理装置。 - 前記プロセッサは、
複数の文書の読取画像を連続して取得した場合、文書毎に文書の種別を特定し、
特定した各文書の種別に応じて前記複数の文書の分類処理を行う、
ことを特徴とする請求項1に記載の情報処理装置。 - 分類処理を行う際に文書の種別が指定された場合、連続する複数の文書を、指定された文書の種別に該当する文書から、次に指定された文書の種別に該当する文書が表れる直前の文書、若しくは最終の文書までが組となるよう文書を分類する、
ことを特徴とする請求項1に記載の情報処理装置。 - 各組に分類された各文書には、当該文書の種別に対応する処理が施される、
ことを特徴とする請求項4又は5に記載の情報処理装置。 - コンピュータに、
文書の読取画像から抽出された当該文書の種類を表す表題を用いて当該種類の文書が分類される文書の種別を特定する機能、
文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する機能、
を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178597A JP7439435B2 (ja) | 2019-09-30 | 2019-09-30 | 情報処理装置及びプログラム |
CN202010126738.8A CN112580414A (zh) | 2019-09-30 | 2020-02-28 | 信息处理装置、信息处理方法及计算机可读介质 |
US16/838,093 US11521404B2 (en) | 2019-09-30 | 2020-04-02 | Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178597A JP7439435B2 (ja) | 2019-09-30 | 2019-09-30 | 情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056722A true JP2021056722A (ja) | 2021-04-08 |
JP7439435B2 JP7439435B2 (ja) | 2024-02-28 |
Family
ID=75119379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019178597A Active JP7439435B2 (ja) | 2019-09-30 | 2019-09-30 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11521404B2 (ja) |
JP (1) | JP7439435B2 (ja) |
CN (1) | CN112580414A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI750572B (zh) * | 2020-01-30 | 2021-12-21 | 虹光精密工業股份有限公司 | 運用機器學習進行文件分類的文件處理系統及方法 |
US20220147843A1 (en) * | 2020-11-12 | 2022-05-12 | Samsung Electronics Co., Ltd. | On-device knowledge extraction from visually rich documents |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319824A (ja) * | 1996-05-30 | 1997-12-12 | Hitachi Ltd | 帳票認識方法 |
JP2000251012A (ja) * | 1999-03-01 | 2000-09-14 | Hitachi Ltd | 帳票処理方法およびシステム |
JP2003168073A (ja) * | 2001-11-29 | 2003-06-13 | Toshiba Corp | 帳票識別装置、帳票定義方法および帳票識別方法 |
US20170155783A1 (en) * | 2015-11-26 | 2017-06-01 | S-Printing Solution Co., Ltd. | Image forming apparatus, mobile device, method for classifying document, and computer readable recording medium |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4760247A (en) * | 1986-04-04 | 1988-07-26 | Bally Manufacturing Company | Optical card reader utilizing area image processing |
US5310062A (en) * | 1986-09-05 | 1994-05-10 | Opex Corporation | Apparatus for automated mail extraction and remittance processing |
US5140139A (en) * | 1989-11-13 | 1992-08-18 | Cognitronics Corporation | Preparing mark/read documents with markable boxes and locating the boxes from the document scan data |
US5438630A (en) * | 1992-12-17 | 1995-08-01 | Xerox Corporation | Word spotting in bitmap images using word bounding boxes and hidden Markov models |
US5542007A (en) * | 1993-10-27 | 1996-07-30 | International Business Machines Corporation | Form dropout compression method which handles form white-out and writing in shaded and white-out areas of the form |
EP0790573B1 (en) * | 1995-07-31 | 2007-05-09 | Fujitsu Limited | Document processor and document processing method |
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
JP3694149B2 (ja) * | 1997-07-07 | 2005-09-14 | 株式会社リコー | 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6865715B2 (en) * | 1997-09-08 | 2005-03-08 | Fujitsu Limited | Statistical method for extracting, and displaying keywords in forum/message board documents |
US6481624B1 (en) * | 1997-11-26 | 2002-11-19 | Opex Corporation | Method and apparatus for processing documents to distinguish various types of documents |
US6678681B1 (en) * | 1999-03-10 | 2004-01-13 | Google Inc. | Information extraction from a database |
EP1124189A4 (en) * | 1999-06-04 | 2004-07-21 | Seiko Epson Corp | DOCUMENT SORTING PROCESS, DOCUMENT SORTING AND RECORDING MEDIUM ON WHICH THE DOCUMENT SORTING PROGRAM IS RECORDED |
US6442555B1 (en) * | 1999-10-26 | 2002-08-27 | Hewlett-Packard Company | Automatic categorization of documents using document signatures |
JP2001202466A (ja) * | 2000-01-18 | 2001-07-27 | Hitachi Ltd | 帳票種別判別装置 |
US7647275B2 (en) * | 2001-07-05 | 2010-01-12 | Cummins-Allison Corp. | Automated payment system and method |
US7099508B2 (en) * | 2001-11-29 | 2006-08-29 | Kabushiki Kaisha Toshiba | Document identification device, document definition method and document identification method |
US7647320B2 (en) * | 2002-01-18 | 2010-01-12 | Peoplechart Corporation | Patient directed system and method for managing medical information |
US20030163785A1 (en) * | 2002-02-28 | 2003-08-28 | Hui Chao | Composing unique document layout for document differentiation |
US20040143547A1 (en) * | 2002-07-02 | 2004-07-22 | Dean Mersky | Automated accounts payable using image typing and type specific processing |
US7236653B2 (en) * | 2003-03-27 | 2007-06-26 | Sharp Laboratories Of America, Inc. | System and method for locating document areas using markup symbols |
US20110188759A1 (en) * | 2003-06-26 | 2011-08-04 | Irina Filimonova | Method and System of Pre-Analysis and Automated Classification of Documents |
WO2004095195A2 (en) * | 2003-04-21 | 2004-11-04 | Document Images, Llc | System and method for managing imaged freight documents |
RU2635259C1 (ru) * | 2016-06-22 | 2017-11-09 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и устройство для определения типа цифрового документа |
CN100470544C (zh) * | 2005-05-24 | 2009-03-18 | 国际商业机器公司 | 用于链接文档的方法、设备和*** |
US9740692B2 (en) * | 2006-08-01 | 2017-08-22 | Abbyy Development Llc | Creating flexible structure descriptions of documents with repetitive non-regular structures |
GB0622863D0 (en) * | 2006-11-16 | 2006-12-27 | Ibm | Automated generation of form definitions from hard-copy forms |
JP4825243B2 (ja) | 2008-06-20 | 2011-11-30 | 富士通フロンテック株式会社 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
US8254681B1 (en) * | 2009-02-05 | 2012-08-28 | Google Inc. | Display of document image optimized for reading |
JP4968293B2 (ja) * | 2009-08-06 | 2012-07-04 | コニカミノルタビジネステクノロジーズ株式会社 | 文書処理装置、文書処理方法およびプログラム |
US8600814B2 (en) * | 2009-08-30 | 2013-12-03 | Cezary Dubnicki | Structured analysis and organization of documents online and related methods |
JP5185402B2 (ja) * | 2011-01-11 | 2013-04-17 | 株式会社東芝 | 文書検索装置、文書検索方法、及び文書検索プログラム |
JP5880052B2 (ja) | 2012-01-10 | 2016-03-08 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
US9111140B2 (en) * | 2012-01-10 | 2015-08-18 | Dst Technologies, Inc. | Identification and separation of form and feature elements from handwritten and other user supplied elements |
US8931044B1 (en) * | 2012-06-29 | 2015-01-06 | Emc Corporation | Methods and systems for automated assignment of protection to physical documents that are digitized |
JP2014016762A (ja) | 2012-07-09 | 2014-01-30 | Hitachi Omron Terminal Solutions Corp | 帳票認識装置および帳票認識方法 |
US8824803B2 (en) * | 2012-08-31 | 2014-09-02 | Ancestry.Com Operations Inc. | Automated field position linking of indexed data to digital images |
JP5942835B2 (ja) * | 2012-12-20 | 2016-06-29 | 富士ゼロックス株式会社 | 手書き情報処理装置及びプログラム |
JP6020161B2 (ja) * | 2012-12-28 | 2016-11-02 | 富士通株式会社 | グラフ作成プログラム、情報処理装置、およびグラフ作成方法 |
US9805258B2 (en) * | 2014-08-21 | 2017-10-31 | Kofax International Switzerland Sarl | Systems and methods for separating documents |
JP6379897B2 (ja) * | 2014-09-11 | 2018-08-29 | 株式会社リコー | 機器、情報処理装置、情報処理システム、データ処理方法、及びプログラム |
US9544473B2 (en) * | 2014-10-20 | 2017-01-10 | Ricoh Company, Ltd. | Information processing system and information processing method |
JP2017090974A (ja) * | 2015-11-02 | 2017-05-25 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
US10127673B1 (en) * | 2016-12-16 | 2018-11-13 | Workday, Inc. | Word bounding box detection |
KR20190091101A (ko) * | 2018-01-26 | 2019-08-05 | 지의소프트 주식회사 | 딥러닝을 이용한 문서 종류 자동 분류 장치 및 방법 |
US10846553B2 (en) * | 2019-03-20 | 2020-11-24 | Sap Se | Recognizing typewritten and handwritten characters using end-to-end deep learning |
-
2019
- 2019-09-30 JP JP2019178597A patent/JP7439435B2/ja active Active
-
2020
- 2020-02-28 CN CN202010126738.8A patent/CN112580414A/zh active Pending
- 2020-04-02 US US16/838,093 patent/US11521404B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319824A (ja) * | 1996-05-30 | 1997-12-12 | Hitachi Ltd | 帳票認識方法 |
JP2000251012A (ja) * | 1999-03-01 | 2000-09-14 | Hitachi Ltd | 帳票処理方法およびシステム |
JP2003168073A (ja) * | 2001-11-29 | 2003-06-13 | Toshiba Corp | 帳票識別装置、帳票定義方法および帳票識別方法 |
US20170155783A1 (en) * | 2015-11-26 | 2017-06-01 | S-Printing Solution Co., Ltd. | Image forming apparatus, mobile device, method for classifying document, and computer readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
CN112580414A (zh) | 2021-03-30 |
US20210097272A1 (en) | 2021-04-01 |
US11521404B2 (en) | 2022-12-06 |
JP7439435B2 (ja) | 2024-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5623079B2 (ja) | ハード・コピーの書式からの書式定義の自動発生 | |
JP7013182B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US8792141B2 (en) | Embedded form extraction definition to enable automatic workflow configuration | |
JP2007042106A (ja) | 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム | |
US11303769B2 (en) | Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium | |
JP2008140377A (ja) | 情報検索装置、方法およびプログラム | |
US11321558B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20080243818A1 (en) | Content-based accounting method implemented in image reproduction devices | |
JP7439435B2 (ja) | 情報処理装置及びプログラム | |
JP7379987B2 (ja) | 情報処理装置及びプログラム | |
US11593386B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP4811133B2 (ja) | 画像形成装置及び画像処理装置 | |
JP2022128202A (ja) | 情報処理装置、情報処理システム、及び情報処理プログラム | |
US11182343B2 (en) | File management device and file management method and non-transitory computer readable medium | |
CN112445911A (zh) | 工作流程辅助装置、***、方法及存储介质 | |
JP2020201822A (ja) | 画像処理装置、その制御方法、及びプログラム | |
US20210110149A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US10990338B2 (en) | Information processing system and non-transitory computer readable medium | |
JP7172343B2 (ja) | 文書検索用プログラム | |
JP2021034778A (ja) | 情報処理装置及び情報処理プログラム | |
JP2021064122A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP6303742B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP2006134079A (ja) | 画像処理装置及びプログラム | |
US20220311889A1 (en) | Information processing apparatus and information processing method | |
JP7404943B2 (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7439435 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |