JP7447614B2 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP7447614B2 JP7447614B2 JP2020058846A JP2020058846A JP7447614B2 JP 7447614 B2 JP7447614 B2 JP 7447614B2 JP 2020058846 A JP2020058846 A JP 2020058846A JP 2020058846 A JP2020058846 A JP 2020058846A JP 7447614 B2 JP7447614 B2 JP 7447614B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- date
- document
- contract
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 36
- 238000000034 method Methods 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 38
- 238000004891 communication Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00408—Display of information to the user, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Character Input (AREA)
- Editing Of Facsimile Originals (AREA)
- Character Discrimination (AREA)
Description
そこで、本発明は、文書で交わされた契約の締結日を特定することを目的とする。
請求項2に係る発明によれば、本発明の消去を行わない場合に比べて、契約の締結日の見逃しを抑制することができる。
請求項3に係る発明によれば、本発明の消去を行わない場合に比べて、捺印がされた契約書における契約の締結日の見逃しを抑制することができる。
請求項4に係る発明によれば、頁の折り目の影及び製本テープの影の影響を除去することができる。
請求項5に係る発明によれば、画像変換の技術を利用して締結日を判定することができる。
請求項6、7に係る発明によれば、2頁分の大きさの画像からでも契約の締結日を特定することができる。
請求項8に係る発明によれば、3頁以上の頁数分の大きさの画像からでも契約の締結日を特定することができる。
請求項9に係る発明によれば、複数の契約書が連結された文書からでも契約の締結日を特定することができる。
請求項10に係る発明によれば、常に同じ方法で判定を行う場合に比べて、判定の処理の負荷を軽減することができる。
請求項11、12に係る発明によれば、全ての日付について常に判定を行う場合に比べて、判定の処理の負荷を軽減することができる。
図1は実施例に係る契約締結日特定システム1の全体構成を表す。契約締結日特定システム1は、契約書に記載されている契約の締結日を特定するための処理を行うシステムである。契約書とは、契約を締結する際に作成される、その契約の内容を表示する文書のことである。
図8は特定処理における動作手順の一例を表す。まず、読取装置20(画像読取部201)は、原稿としてセットされた契約書に表された文字等を読み取り、原稿画像を生成する(ステップS11)。次に、読取装置20(画像読取部201)は、生成した原稿画像を示す画像データを文書処理装置10に送信する(ステップS12)。
上述した実施例は本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施例及び各変形例は、必要に応じて組み合わせて実施してもよい。
画像取得部101は、実施例では、契約書の原本を読み取って生成された原稿画像を取得したが、これに限らず、例えば電子契約を行うシステムにおいて電子的に作成された契約書データが示す原稿画像を取得してもよい。
締結日特定部104は、特定した契約の締結日を原稿画像の送信元である文書処理装置10に出力したが、これに限らない。締結日特定部104は、例えば、契約の締結日を契約書の電子データを保存する外部装置に出力してもよい。また、締結日特定部104は、契約の締結日を、自装置の表示手段に出力して表示させてもよいし、外部の印刷手段に出力して印刷してもよい。
締結日特定部104は、原稿画像のうち特定の色の部分を不要部分として消去したが、不要部分はこれに限らない。締結日特定部104は、本変形例では、取得された原稿画像から、認識された文字を含む文字領域を除く部分を不要部分(=消去条件を満たす部分)として消去する。
締結日特定部104は、原稿画像のうち不要部分を消去したが、代わりに不要部分を含まない画像に変換することで、結果的に不要部分が消去された状態にしてもよい。画像の変換には、例えば、GAN(Genera tive Adversarial Networks:敵対的生成ネットワーク)と呼ばれる機械学習が用いられてもよい。
画像読取部201は、実施例では、契約書を1ページずつ読み取らせた場合の原稿画像を生成したが、これに限らず、見開きの2ページを一度に読み取らせた場合の原稿画像を生成してもよい。その場合、表紙と裏表紙については契約書の1頁分の大きさの原稿画像が生成され、それら以外は契約書の見開きの2頁分の大きさの原稿画像が生成される。
締結日特定部104は、画像取得部101により取得された原稿画像(=契約の文書を表す画像)がその文書の2頁分の大きさである場合、その原稿画像を半分に分割してから判定を行う。2頁分の大きさの原稿画像を半分に分割するということは、1頁分の原稿画像を生成するということである。
図10は新たな原稿画像の一例を表す。図10では、締結日特定部104は、原稿画像C1の左側の頁を表す原稿画像C1-1と、原稿画像C1の右側の頁を表す、日付画像D2を含む原稿画像C1-2とを生成している。
契約書の内容によっては、他の契約書を綴じ込んだ1つの契約書が作成されることがある。その場合、他の契約書にも契約の締結日が記載されているので、1つの契約書に2つの契約の締結日が記載されていることになる。そのように前後領域に他の文字がないと判定される日付が2以上ある場合、締結日特定部104は、まず、契約書の表題を示す文字列を抽出する。
契約書によっては、日付が1つしか含まれていないものがある。その場合の日付は、契約の締結日を表している蓋然性が極めて高い。そこで、締結日特定部104は、認識された文字が示す日付が1つの場合はその日付を契約の締結日として特定及び出力してもよい。これにより、契約書に含まれる日付が1つの場合は前後領域に文字が存在するか否かを判断する処理が不要になるので、常に同じ方法で判定を行う場合に比べて、判定の処理の負荷が軽減される。
契約書においては、契約の締結日が記載される領域が似通った位置になりやすい。例えば、契約の内容を一通り書き終えたあとの領域である。また、契約書の冒頭の領域に締結日を記載する場合もある。そこで、本変形例では、締結日特定部104は、まず、原稿画像のうち特定の領域に表された日付について前後領域に他の文字があるか否かを判定する。
契約締結日特定システム1において図4に表す機能を実現する方法は実施例で述べた方法に限らない。例えば、文書処理装置10は、1つの筐体内に全ての構成要素を備えていてもよいし、クラウドサービスで提供されるコンピュータリソースのように2以上の筐体内に分散した構成要素を備えていてもよい。
上記各実施例において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
本発明は、文書処理装置10及び読取装置20という各情報処理装置の他、それらの情報処理装置を備える情報処理システム(契約締結日特定システム1がその一例)としても捉えられる。また、本発明は、各情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるし、各情報処理装置を制御するコンピュータを機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等の通信回線を介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。
Claims (12)
- プロセッサを備え、
前記プロセッサは、
締結された契約の文書を表す画像を取得し、
取得した前記画像から文字を認識し、
認識される前記文字の前記画像内の位置を算出し、
算出した前記位置に基づき、読み取った前記文字が示す日付の前後に存在する前後領域に他の文字があるか否かを判定し、
前記前後領域に他の文字がないと判定された前記日付を前記契約の締結日として出力する
情報処理装置。 - 前記プロセッサが、取得した前記画像から定められた条件を満たす部分を消去してから前記判定を行う
請求項1に記載の情報処理装置。 - 前記プロセッサが、取得した前記画像から特定の色の部分を前記条件を満たす部分として消去する
請求項2に記載の情報処理装置。 - 前記プロセッサが、取得した前記画像から、認識した前記文字を含む文字領域を除く部分を前記条件を満たす部分として消去する
請求項2に記載の情報処理装置。 - 前記プロセッサが、取得した前記画像を変換した結果の画像に基づき前記判定を行う
請求項1に記載の情報処理装置。 - 前記プロセッサが、取得した前記文書を表す画像が当該文書の2頁分の大きさである場合、当該画像を半分に分割してから前記判定を行う
請求項1から5のいずれか1項に記載の情報処理装置。 - 前記画像は長方形であり、
前記プロセッサが、前記画像の向かい合う辺に挟まれ且つ当該画像の角を含まない長方形の領域のうち、認識された文字が存在せず且つ幅が最大になる領域の当該幅が閾値以上である場合に、前記画像が前記文書の2頁分の大きさであると判断する
請求項6に記載の情報処理装置。 - 前記プロセッサが、取得した前記文書を表す画像が当該文書の3頁以上の頁数分の大きさである場合、当該画像を当該頁数分に分割してから前記判定を行う
請求項1から7のいずれか1項に記載の情報処理装置。 - 前記プロセッサが、前後領域に他の文字がないと判定される日付が2以上ある場合、前記文書の表題を示す文字列を抽出し、抽出した前記表題を示す文字列の配置に基づき前記文書を分割し、分割した前記文書毎に前記契約の締結日を出力する
請求項1から8のいずれか1項に記載の情報処理装置。 - 前記プロセッサが、認識した前記文字が示す日付が1つの場合は当該日付を前記契約の締結日として出力する
請求項1から9のいずれか1項に記載の情報処理装置。 - 前記プロセッサが、前記文書を表す画像のうち特定の領域に表された前記日付について前記他の文字があるか否かを判定し、当該特定の領域に前記他の文字がない日付がない場合に、他の領域に表された前記日付について前記他の文字があるか否かを判定する
請求項1から10のいずれか1項に記載の情報処理装置。 - 前記特定の領域は、前記文書の冒頭の定められた数の頁又は前記文書の最後の定められた数の頁である
請求項11に記載の情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058846A JP7447614B2 (ja) | 2020-03-27 | 2020-03-27 | 情報処理装置 |
US16/931,367 US20210303843A1 (en) | 2020-03-27 | 2020-07-16 | Information processing apparatus |
CN202010902505.2A CN113452857A (zh) | 2020-03-27 | 2020-09-01 | 信息处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058846A JP7447614B2 (ja) | 2020-03-27 | 2020-03-27 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021157643A JP2021157643A (ja) | 2021-10-07 |
JP7447614B2 true JP7447614B2 (ja) | 2024-03-12 |
Family
ID=77808479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020058846A Active JP7447614B2 (ja) | 2020-03-27 | 2020-03-27 | 情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210303843A1 (ja) |
JP (1) | JP7447614B2 (ja) |
CN (1) | CN113452857A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215380A (ja) | 2001-01-24 | 2002-08-02 | Fuji Xerox Co Ltd | イメージ分割装置 |
WO2019008766A1 (ja) | 2017-07-07 | 2019-01-10 | 株式会社クラビス | 証憑処理システムおよび証憑処理プログラム |
JP2019082814A (ja) | 2017-10-30 | 2019-05-30 | 株式会社インフォディオ | 紙帳票データ化システム、ocrエンジン学習用画像生成装置および画像分析装置 |
JP2019114193A (ja) | 2017-12-26 | 2019-07-11 | セイコーエプソン株式会社 | 画像処理装置および画像処理プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6874673B2 (ja) * | 2017-12-26 | 2021-05-19 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
US10839207B2 (en) * | 2018-07-14 | 2020-11-17 | DeepSee.ai Inc. | Systems and methods for predictive analysis reporting |
JP2020144646A (ja) * | 2019-03-07 | 2020-09-10 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021033688A (ja) * | 2019-08-26 | 2021-03-01 | 日本電気株式会社 | 日付生成装置、制御方法、プログラム |
-
2020
- 2020-03-27 JP JP2020058846A patent/JP7447614B2/ja active Active
- 2020-07-16 US US16/931,367 patent/US20210303843A1/en not_active Abandoned
- 2020-09-01 CN CN202010902505.2A patent/CN113452857A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215380A (ja) | 2001-01-24 | 2002-08-02 | Fuji Xerox Co Ltd | イメージ分割装置 |
WO2019008766A1 (ja) | 2017-07-07 | 2019-01-10 | 株式会社クラビス | 証憑処理システムおよび証憑処理プログラム |
JP2019082814A (ja) | 2017-10-30 | 2019-05-30 | 株式会社インフォディオ | 紙帳票データ化システム、ocrエンジン学習用画像生成装置および画像分析装置 |
JP2019114193A (ja) | 2017-12-26 | 2019-07-11 | セイコーエプソン株式会社 | 画像処理装置および画像処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2021157643A (ja) | 2021-10-07 |
US20210303843A1 (en) | 2021-09-30 |
CN113452857A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11354490B1 (en) | Systems, methods, and computer readable media for creating slide presentations | |
US11580763B2 (en) | Representative document hierarchy generation | |
US9514103B2 (en) | Effective system and method for visual document comparison using localized two-dimensional visual fingerprints | |
JP5623079B2 (ja) | ハード・コピーの書式からの書式定義の自動発生 | |
US20160092730A1 (en) | Content-based document image classification | |
JP4533273B2 (ja) | 画像処理装置及び画像処理方法、プログラム | |
WO2020125345A1 (zh) | 电子书笔记处理方法、手写阅读设备和存储介质 | |
US9558433B2 (en) | Image processing apparatus generating partially erased image data and supplementary data supplementing partially erased image data | |
JP4232679B2 (ja) | 画像形成装置およびプログラム | |
JP2010218249A (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP7447614B2 (ja) | 情報処理装置 | |
JP2008282149A (ja) | 画像処理装置、画像処理方法、画像処理プログラム | |
US20220301285A1 (en) | Processing picture-text data | |
CN110941947A (zh) | 一种文档编辑的方法、装置、计算机存储介质及终端 | |
CN113936187A (zh) | 文本图像合成方法、装置、存储介质及电子设备 | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP2006133960A (ja) | 画像処理装置及びプログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
US20130104014A1 (en) | Viewer unit, server unit, display control method, digital comic editing method and non-transitory computer-readable medium | |
US10606928B2 (en) | Assistive technology for the impaired | |
KR101458155B1 (ko) | 편집 문서 생성 장치 및 방법 | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
JP2019016379A (ja) | データ入力装置及びデータ入力プログラム | |
CN110929481B (zh) | 一种文档编辑的方法、装置、计算机存储介质及终端 | |
JP2018136709A (ja) | データ入力装置、データ入力プログラム及びデータ入力システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7447614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |