JP7447614B2

JP7447614B2 - 情報処理装置

Info

Publication number: JP7447614B2
Application number: JP2020058846A
Authority: JP
Inventors: 周作久保; 邦彦小林; 茂岡田; 裕介鈴木; 真太郎安達
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2024-03-12
Anticipated expiration: 2040-03-27
Also published as: JP2021157643A; US20210303843A1; CN113452857A

Description

本発明は、情報処理装置に関する。

特許文献１には、文書画像の中に複数の日付情報があった場合に日付の横に時刻が記載されているものを発行日と特定する技術が記載されている。

特開２０１９－１１４１９３号公報

特許文献１の技術であればレシート等の発行日を特定することができる。しかし、上記技術では、例えば契約書の契約締結日は横に時刻が記載されている訳ではないので特定することができない。
そこで、本発明は、文書で交わされた契約の締結日を特定することを目的とする。

本発明の請求項１に係る情報処理装置は、プロセッサを備え、前記プロセッサは、締結された契約の文書を表す画像を取得し、取得した前記画像から文字を認識し、認識される前記文字の前記画像内の位置を算出し、算出した前記位置に基づき、読み取った前記文字が示す日付の前後に存在する前後領域に他の文字があるか否かを判定し、前記前後領域に他の文字がないと判定された前記日付を前記契約の締結日として出力することを特徴とする。

本発明の請求項２に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサが、取得した前記画像から定められた条件を満たす部分を消去してから前記判定を行うことを特徴とする。

本発明の請求項３に係る情報処理装置は、請求項２に記載の態様において、前記プロセッサが、取得した前記画像から特定の色の部分を前記条件を満たす部分として消去することを特徴とする。

本発明の請求項４に係る情報処理装置は、請求項２に記載の態様において、前記プロセッサが、取得した前記画像から、認識した前記文字を含む文字領域を除く部分を前記条件を満たす部分として消去することを特徴とする。

本発明の請求項５に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサが、取得した前記画像を変換した結果の画像に基づき前記判定を行うことを特徴とする。

本発明の請求項６に係る情報処理装置は、請求項１から５のいずれか１項に記載の態様において、前記プロセッサが、取得した前記文書を表す画像が当該文書の２頁分の大きさである場合、当該画像を半分に分割してから前記判定を行うことを特徴とする。

本発明の請求項７に係る情報処理装置は、請求項６に記載の態様において、前記画像は長方形であり、前記プロセッサが、前記画像の向かい合う辺に挟まれ且つ当該画像の角を含まない長方形の領域のうち、認識された文字が存在せず且つ幅が最大になる領域の当該幅が閾値以上である場合に、前記画像が前記文書の２頁分の大きさであると判断することを特徴とする。

本発明の請求項８に係る情報処理装置は、請求項１から７のいずれか１項に記載の態様において、前記プロセッサが、取得した前記文書を表す画像が当該文書の３頁以上の頁数分の大きさである場合、当該画像を当該頁数分に分割してから前記判定を行うことを特徴とする。

本発明の請求項９に係る情報処理装置は、請求項１から８のいずれか１項に記載の態様において、前記プロセッサが、前後領域に他の文字がないと判定される日付が２以上ある場合、前記文書の表題を示す文字列を抽出し、抽出した前記表題を示す文字列の配置に基づき前記文書を分割し、分割した前記文書毎に前記契約の締結日を出力することを特徴とする。

本発明の請求項１０に係る情報処理装置は、請求項１から９のいずれか１項に記載の態様において、前記プロセッサが、認識した前記文字が示す日付が１つの場合は当該日付を前記契約の締結日として出力することを特徴とする。

本発明の請求項１１に係る情報処理装置は、請求項１から１０のいずれか１項に記載の態様において、前記プロセッサが、前記文書を表す画像のうち特定の領域に表された前記日付について前記他の文字があるか否かを判定し、当該特定の領域に前記他の文字がない日付がない場合に、他の領域に表された前記日付について前記他の文字があるか否かを判定することを特徴とする。

本発明の請求項１２に係る情報処理装置は、請求項１１に記載の態様において、前記特定の領域は、前記文書の冒頭の定められた数の頁又は前記文書の最後の定められた数の頁であることを特徴とする。

請求項１に係る発明によれば、文書で交わされた契約の締結日を特定することができる。
請求項２に係る発明によれば、本発明の消去を行わない場合に比べて、契約の締結日の見逃しを抑制することができる。
請求項３に係る発明によれば、本発明の消去を行わない場合に比べて、捺印がされた契約書における契約の締結日の見逃しを抑制することができる。
請求項４に係る発明によれば、頁の折り目の影及び製本テープの影の影響を除去することができる。
請求項５に係る発明によれば、画像変換の技術を利用して締結日を判定することができる。
請求項６、７に係る発明によれば、２頁分の大きさの画像からでも契約の締結日を特定することができる。
請求項８に係る発明によれば、３頁以上の頁数分の大きさの画像からでも契約の締結日を特定することができる。
請求項９に係る発明によれば、複数の契約書が連結された文書からでも契約の締結日を特定することができる。
請求項１０に係る発明によれば、常に同じ方法で判定を行う場合に比べて、判定の処理の負荷を軽減することができる。
請求項１１、１２に係る発明によれば、全ての日付について常に判定を行う場合に比べて、判定の処理の負荷を軽減することができる。

実施例に係る契約締結日特定システムの全体構成を表す図文書処理装置のハードウェア構成を表す図読取装置のハードウェア構成を表す図契約締結日特定システムにおいて実現される機能構成を表す図日付の前後領域の例を表す図消去の一例を表す図表示された契約の締結日の一例を表す図特定処理における動作手順の一例を表す図非文字領域の例を表す図新たな原稿画像の一例を表す図

［１］実施例
図１は実施例に係る契約締結日特定システム１の全体構成を表す。契約締結日特定システム１は、契約書に記載されている契約の締結日を特定するための処理を行うシステムである。契約書とは、契約を締結する際に作成される、その契約の内容を表示する文書のことである。

契約書には、売買契約書、秘密保持契約書、業務委託契約書、請負契約書及び賃貸借契約書等が含まれる。また、契約書には、発注書、注文書、請書及び注文請書等も含まれる。企業等の団体では、契約を締結すると、契約の整理及び管理等を目的として、契約書を電子データとして保存する業務が行われている。契約締結日特定システム１は、そのような契約書の保存業務の担当者（以下では単に「ユーザ」と言う）によって主に利用される。

契約締結日特定システム１は、通信回線２と、文書処理装置１０と、読取装置２０とを備える。通信回線２は、移動体通信網及びインターネット等を含む通信システムであり、自システムにアクセスする装置同士のデータのやり取りを中継する。通信回線２には、文書処理装置１０及び読取装置２０が有線通信でアクセスしている。なお、通信回線２へのアクセスは無線通信でもよい。

読取装置２０は、原稿を読み取り、その原稿に表された文字等を示す画像データを生成する処理を行う情報処理装置である。読取装置２０は、契約書の原本を原稿として読み取った契約書画像データを生成する。文書処理装置１０は、契約書の画像から契約の締結日を特定する処理を行う情報処理装置である。文書処理装置１０は、読取装置２０が生成した契約書画像データに基づいて契約の締結日を特定する。

図２は文書処理装置１０のハードウェア構成を表す。文書処理装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信装置１４と、ＵＩ装置１５（ＵＩ＝User Interface）とを備えるコンピュータである。プロセッサ１１は、例えば、ＣＰＵ（＝Central Processing Unit）等の演算装置、レジスタ及び周辺回路等を有する。メモリ１２は、プロセッサ１１が読み取り可能な記録媒体であり、ＲＡＭ（＝Random Access Memory）及びＲＯＭ（＝Read Only Memory）等を有する。

ストレージ１３は、プロセッサ１１が読み取り可能な記録媒体であり、例えば、ハードディスクドライブ又はフラッシュメモリ等を有する。プロセッサ１１は、ＲＡＭをワークエリアとして用いてＲＯＭやストレージ１３に記憶されているプログラムを実行することで各ハードウェアの動作を制御する。通信装置１４は、アンテナ及び通信回路等を有し、通信回線２を介した通信を行う通信手段である。

ＵＩ装置１５は、自装置を利用するユーザに対して提供されるインターフェースである。ＵＩ装置１５は、例えば、表示手段であるディスプレイと、ディスプレイの表面に設けられたタッチパネルとを有するタッチスクリーンを有し、画像を表示すると共に、ユーザからの操作を受け付ける。また、ＵＩ装置１５は、タッチスクリーン以外にも、キーボード等の操作子を有し、それらの操作子への操作を受け付ける。

図３は読取装置２０のハードウェア構成を表す。読取装置２０は、プロセッサ２１と、メモリ２２と、ストレージ２３と、通信装置２４と、ＵＩ装置２５と、画像読取装置２６とを備えるコンピュータである。プロセッサ２１からＵＩ装置２５までは、図２に表すプロセッサ１１からＵＩ装置１５までと同種のハードウェアである。

画像読取装置２６は、原稿を読み取りその原稿に表された文字等（文字、記号、絵及び図柄等）を示す画像データを生成する装置であり、いわゆるスキャナである。画像読取装置２６は、原稿に表された文字等が色彩を有する場合には、その色彩も読み取るカラースキャン機能を有する。

契約締結日特定システム１においては、上記の各装置のプロセッサがプログラムを実行して各部を制御することで、以下に述べる各機能が実現される。各機能が行う動作は、その機能を実現する装置のプロセッサが行う動作としても表される。

図４は契約締結日特定システム１において実現される機能構成を表す。文書処理装置１０は、画像取得部１０１と、文字認識部１０２と、判定部１０３と、締結日特定部１０４とを備える。読取装置２０は、画像読取部２０１と、締結日表示部２０２とを備える。

読取装置２０の画像読取部２０１は、画像読取装置２６を制御して、原稿に表された文字等を読み取り、それらの文字等を示す画像（以下「原稿画像」と言う）を生成する。ユーザが契約書の原本を１枚ずつめくりながら画像読取装置２６にセットして読み取りの操作を行うと、画像読取部２０１が、読み取りの操作の度に原稿画像を生成する。本実施例では、ユーザは契約書を１ページずつ読み取らせるものとする（つまり見開きの２ページを同時に読み取らせない）。

画像読取部２０１は、生成した原稿画像を示す画像データを文書処理装置１０に送信する。文書処理装置１０の画像取得部１０１は、送信されてきた画像データが示す原稿画像を、締結された契約の文書を表す画像として取得する。画像取得部１０１は、取得した原稿画像を文字認識部１０２に供給する。文字認識部１０２は、供給された原稿画像から文字を認識する。

文字認識部１０２は、例えば周知のＯＣＲ（Optical Character Recognition）技術を用いて文字を認識する。文字認識部１０２は、まず、原稿画像に対して文字が並べられた領域を特定するレイアウト解析を行い、横書きの場合は文字が並べられた行を１行ずつ特定し、縦書きの場合文字が並べられた列を１列ずつ特定する。文字認識部１０２は、さらに各行又は各列に表されている文字と文字の隙間の空白の領域を認識することで文字を含む矩形の画像を１文字ずつ切り出す処理を行う。

その際、文字認識部１０２は、切り出した文字（後ほど認識することになる文字）の画像内での位置も算出する。文字認識部１０２は、例えば、原稿画像の左上角を原点とした２次元座標系の座標で表す位置を文字の位置として算出する。文字の位置は、例えば切り出された矩形の画像の中心の画素の位置で表される。文字認識部１０２は、切り出した矩形の画像に含まれる文字に対して正規化、特徴量抽出、マッチング及び知識処理等の処理を行って認識する。

正規化とは、文字のサイズ及び形を一定にする処理である。特徴量抽出とは、文字の特徴を表す量を抽出する処理である。マッチングとは、標準的な文字の特徴量を記憶しておき、抽出された特徴量と最も類似する特徴量の文字を特定する処理である。知識処理とは、日本語の単語情報を記憶しておき、認識した文字が示す単語が記憶されていない場合に記憶されている似通った単語に訂正する処理である。

文字認識部１０２は、認識した文字とその文字について算出した位置と文字が並ぶ方向（行を特定した場合は横方向、列を特定した場合は縦方向）とを示す文字データを判定部１０３に供給する。判定部１０３は、算出された文字の位置に基づき、読み取られた文字が示す日付の前後に存在する領域（以下「前後領域」と言う）に他の文字があるか否かを判定する。ここでいう「前後」とは、文字が並べられた方向における前後のことである。

図５は日付の前後領域の例を表す。図５（ａ）では、横書きの「令和２年３月３日」という日付画像Ｄ１に対する前領域Ａ１及び後領域Ａ２が表されている。前領域Ａ１は「令和」の左側に隣接し原稿画像の左端まで伸びる矩形の領域であり、後領域Ａ２は「３日」の右側に隣接し原稿画像の右端まで伸びる矩形の領域である。

図５（ｂ）では、縦書きの「令和２年３月３日」という日付画像Ｄ２に対する前領域Ａ３及び後領域Ａ４が表されている。前領域Ａ３は「令和」の上側に隣接し原稿画像の上端まで伸びる矩形の領域であり、後領域Ａ４は「３日」の下側に隣接し原稿画像の下端まで伸びる矩形の領域である。このように、前後領域は、文字が並んでいる方向によって規定される。

判定部１０３は、例えば、契約書に用いられる元号を記憶しておき、「元号」＋数字＋「年」＋数字＋「月」＋数字＋「日」という並びの文字列を日付画像として特定する。なお、判定部１０３は、和暦ではなく西暦で記載された年月日を日付画像として特定してもよい。また、判定部１０３は、年月日に入る数字が適切でない場合（例えば１３月など）は日付画像として特定しないようにしてもよい。

判定部１０３は、画像取得部１０１により取得された原稿画像から定められた条件（以下「消去条件」と言う）を満たす部分を消去してから前述した判定を行う。消去条件を満たす部分は、契約の締結日の判定に不要な部分であり、以下では「不要部分」とも言う。判定部１０３は、本実施例では、画像取得部１０１により取得された原稿画像から特定の色の部分を不要部分として消去する。特定の色とは、例えば、印鑑に用いられる赤い色である。

図６は消去の一例を表す。図６（ａ）では、図５（ａ）に表す日付画像Ｄ１の後領域Ａ２に「判子」という文字の判子画像Ｂ１が位置している。判子画像Ｂ１は赤い色をしているものとする。判定部１０３は、原稿画像から赤色の部分を消去することで、図６（ｂ）に表すように判子画像Ｂ１を消去する。判定部１０３は、判子画像Ｂ１が消去された原稿画像について前後領域に他の文字があるか否かを判定する。判定部１０３は、図６の例では、前後領域に他の文字がないと判定する。

判定部１０３は、判定結果を締結日特定部１０４に供給する。締結日特定部１０４は、判定部１０３により前後領域に他の文字がないと判定された日付を契約の締結日として特定する。締結日特定部１０４は、図６の例であれば、日付画像Ｄ１について前後領域に他の文字がないと判定されているので、日付画像Ｄ１が示す「令和２年３月３日」という日付を契約の締結日として特定する。

締結日特定部１０４は、特定した契約の締結日、すなわち前後領域に他の文字がないと判定された日付を出力する。締結日特定部１０４は、本実施例では、原稿画像を示す画像データの送信元である読取装置２０に特定した契約の締結日を示す締結日データを送信することで、特定した契約の締結日を出力する。読取装置２０の締結日表示部２０２は、出力されてきた契約の締結日を表示する。

図７は表示された契約の締結日の一例を表す。図７の例では、締結日表示部２０２は、「文書ファイル名」と「契約の締結日」を表示するとともに、「保存しますか？」という文字列とはいボタン及びいいえボタンを表示している。文書ファイル名とは、読み取られた原稿画像を示す画像データのファイル名である。

ユーザがはいボタンを押す操作を行うと、例えば締結日表示部２０２がその旨を文書処理装置１０に通知し、締結日特定部１０４が画像データと契約の締結日とを対応付けて記憶する。なお、画像データ及び契約の締結日の保存先は文書処理装置１０に限らず、読取装置２０であってもよいし、図示せぬ外部装置（＝契約書データベース装置等）であってもよい。

契約締結日特定システム１が備える各装置は、上記の構成により、契約の締結日を特定する特定処理を行う。
図８は特定処理における動作手順の一例を表す。まず、読取装置２０（画像読取部２０１）は、原稿としてセットされた契約書に表された文字等を読み取り、原稿画像を生成する（ステップＳ１１）。次に、読取装置２０（画像読取部２０１）は、生成した原稿画像を示す画像データを文書処理装置１０に送信する（ステップＳ１２）。

文書処理装置１０（画像取得部１０１）は、送信されてきた画像データが示す原稿画像を、締結された契約の文書を表す画像として取得する（ステップＳ１３）。次に、文書処理装置１０（文字認識部１０２）は、取得された原稿画像から文字を認識する（ステップＳ１４）。続いて、文書処理装置１０（文字認識部１０２）は、認識した文字の画像内での位置を算出する（ステップＳ１５）。なお、ステップＳ１４及びＳ１５の動作は順番が反対であってもよいし、並行して行われてもよい。

次に、文書処理装置１０（判定部１０３）は、原稿画像のうち不要部分（＝消去条件を満たす部分）を消去する消去処理を行う（ステップＳ１６）。なお、ステップＳ１６の動作は、ステップＳ１４及びＳ１５よりも先に行ってもよいし、ステップＳ１４及びＳ１５と並行して行ってもよい。続いて、文書処理装置１０（判定部１０３）は、算出された文字の位置に基づき、読み取られた文字が示す日付の前後に存在する前後領域に他の文字があるか否かを判定する（ステップＳ１７）。

そして、文書処理装置１０（締結日特定部１０４）は、ステップＳ１６において前後領域に他の文字がないと判定された日付を契約の締結日として特定し（ステップＳ１８）、特定した契約の締結日を読取装置２０に出力する（ステップＳ１９）。読取装置２０（締結日表示部２０２）は、出力されてきた契約の締結日を表示する（ステップＳ２０）。

契約書に記載される契約の締結日は、通常は、文章の途中に記載されることはなく、１行又は１列を使って単独で記載される。そのため、上述した前後領域に他の文字がない日付は、契約の締結日として記載されたものである可能性が極めて高い。本実施例では、上記のとおり前後領域の判定結果に基づくことで、文書で交わされた契約の締結日が特定されることになる。

ただし、前後領域には図６に示すように判子の文字が掛かる場合がある。この場合に前後領域に文字が存在すると判定すると、契約の締結日を特定できず見逃すことになる。本実施例では、不要部分の消去を行うことで、その消去を行わない場合に比べて、契約の締結日の見逃しが抑制される。特に、捺印がされた契約書における契約の締結日の見逃しが抑制される。

［２］変形例
上述した実施例は本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施例及び各変形例は、必要に応じて組み合わせて実施してもよい。

［２－１］原稿画像
画像取得部１０１は、実施例では、契約書の原本を読み取って生成された原稿画像を取得したが、これに限らず、例えば電子契約を行うシステムにおいて電子的に作成された契約書データが示す原稿画像を取得してもよい。

［２－２］出力先
締結日特定部１０４は、特定した契約の締結日を原稿画像の送信元である文書処理装置１０に出力したが、これに限らない。締結日特定部１０４は、例えば、契約の締結日を契約書の電子データを保存する外部装置に出力してもよい。また、締結日特定部１０４は、契約の締結日を、自装置の表示手段に出力して表示させてもよいし、外部の印刷手段に出力して印刷してもよい。

［２－３］不要部分の消去
締結日特定部１０４は、原稿画像のうち特定の色の部分を不要部分として消去したが、不要部分はこれに限らない。締結日特定部１０４は、本変形例では、取得された原稿画像から、認識された文字を含む文字領域を除く部分を不要部分（＝消去条件を満たす部分）として消去する。

締結日特定部１０４は、例えば、認識された文字の塊を囲む最小の四角形を文字領域として特定する。そして、締結日特定部１０４は、特定した文字領域を除く部分を不要部分として消去する。締結日特定部１０４は、不要部分を消去したあとに、実施例と同様に契約の締結日を特定する。

契約書を読み取った原稿画像には、頁の折り目の影及び製本テープの影等が含まれる場合がある。読取領域にそれらの影等が含まれていて且つそれらの影等が誤って文字と認識されると、契約の締結日が特定されなくなる。本変形例では、上記の消去処理が行われることで、それらの影等の影響が除去され、その消去処理が行われない場合に比べて、契約の締結日の見逃しが抑制される。

［２－３］不要部分の変換
締結日特定部１０４は、原稿画像のうち不要部分を消去したが、代わりに不要部分を含まない画像に変換することで、結果的に不要部分が消去された状態にしてもよい。画像の変換には、例えば、ＧＡＮ（Genera tive Adversarial Networks：敵対的生成ネットワーク）と呼ばれる機械学習が用いられてもよい。

ＧＡＮとは、２つのネットワーク（生成器と識別器）を競わせながら学習させるアーキテクチャであり、画像生成の手法としてよく用いられている。生成器は、ランダムなノイズ画像から偽物の画像を生成する。識別器は、生成された画像が教師データに含まれる「本物」か否かを判定する。締結日特定部１０４は、例えば、ＧＡＮにより捺印のない契約書の画像を生成し、生成した画像に基づき実施例と同様に契約の締結日を特定する。

このように、締結日特定部１０４は、本変形例では、取得した原稿画像を変換した結果の画像に基づき締結日の判定を行う。これにより、画像変換の技術を利用して締結日が判定されることになる。

［２－４］読み取り方法
画像読取部２０１は、実施例では、契約書を１ページずつ読み取らせた場合の原稿画像を生成したが、これに限らず、見開きの２ページを一度に読み取らせた場合の原稿画像を生成してもよい。その場合、表紙と裏表紙については契約書の１頁分の大きさの原稿画像が生成され、それら以外は契約書の見開きの２頁分の大きさの原稿画像が生成される。

［２－５］原稿画像の分割
締結日特定部１０４は、画像取得部１０１により取得された原稿画像（＝契約の文書を表す画像）がその文書の２頁分の大きさである場合、その原稿画像を半分に分割してから判定を行う。２頁分の大きさの原稿画像を半分に分割するということは、１頁分の原稿画像を生成するということである。

原稿画像は通常長方形の画像である。締結日特定部１０４は、例えば、取得された原稿画像の向かい合う辺に挟まれ且つ原稿画像の角を含まない長方形の領域のうち、認識された文字が存在せず且つ幅が最大になる領域（以下「非文字領域」と言う）のその幅が閾値以上である場合に、原稿画像が契約書の２頁分の大きさであると判断する。ここでいう「幅」とは、一方の辺から他方の辺に向かう方向に直交する方向の寸法のことである。

図９は非文字領域の例を表す。図９では、２頁分の大きさの原稿画像Ｃ１に含まれる非文字領域Ｅ１が表されている。非文字領域Ｅ１は、左右の頁の間に存在する。締結日特定部１０４は、文章の上下の余白の領域は原稿画像Ｃ１の角を含むので非文字領域ではないと判断する。原稿画像Ｃ１には日付画像Ｄ２が含まれている。締結日特定部１０４は、非文字領域Ｅ１の幅Ｗ１が閾値以上である場合、原稿画像Ｃ１が契約書の２頁分の大きさであると判断する。

締結日特定部１０４は、上記判断を行うと、例えば、非文字領域Ｅ１の幅方向の中心を通る線で原稿画像Ｃ１を分割し、新たな原稿画像を生成する。
図１０は新たな原稿画像の一例を表す。図１０では、締結日特定部１０４は、原稿画像Ｃ１の左側の頁を表す原稿画像Ｃ１－１と、原稿画像Ｃ１の右側の頁を表す、日付画像Ｄ２を含む原稿画像Ｃ１－２とを生成している。

締結日特定部１０４は、原稿画像Ｃ１－１、Ｃ１－２のそれぞれについて前後領域に関する判定を行うことで、日付画像Ｄ２の前後領域に他の文字がないと判定する。その結果、日付画像Ｄ２は契約の締結日と特定される。原稿画像Ｃ１の場合、日付画像Ｄ２の前の領域に隣の頁の文字が存在するので、日付画像Ｄ２の前後領域に他の文字があると判定される。本変形例では、上記のとおり原稿画像が分割されることで、２頁分の大きさの原稿画像からでも契約の締結日が特定されることになる。

なお、例えば契約書の電子データであれば、４アップ又は８アップ等のレイアウトが選択され、１枚の画像に３頁以上の頁が含まれる場合がある。そのように画像取得部１０１により取得された原稿画像（＝契約の文書を表す画像）がその文書の３頁以上の頁数分の大きさである場合、締結日特定部１０４は、その原稿画像をその頁数分に分割してから判定を行う。

締結日特定部１０４は、例えば幅が閾値以上の非文字領域が２以上ある場合に、それらの非文字領域で仕切られた領域の数を１枚の画像に含まれる頁の頁数と判断する。締結日特定部１０４は、この判断を行うと、例えば、各非文字領域の幅方向の中心を通る線で原稿画像を分割し、新たな原稿画像を生成する。これにより、３頁以上の頁数分の大きさの原稿画像からでも契約の締結日が特定されることになる。

［２－６］複数契約書の連結
契約書の内容によっては、他の契約書を綴じ込んだ１つの契約書が作成されることがある。その場合、他の契約書にも契約の締結日が記載されているので、１つの契約書に２つの契約の締結日が記載されていることになる。そのように前後領域に他の文字がないと判定される日付が２以上ある場合、締結日特定部１０４は、まず、契約書の表題を示す文字列を抽出する。

契約書の表題は、一般的に、契約内容を記載する文字よりも大きな文字で表されていることが多い。そこで、締結日特定部１０４は、例えば、複数の原稿画像に含まれる文字のサイズを比較して、通常の文字よりも大きな文字で表された文字列をその原稿画像が示す契約書の表題として抽出する。このときに、他の契約書を綴じ込んだ１つの契約書の原稿画像が取得された場合は、２つの表題が抽出される。

締結日特定部１０４は、抽出した表題を示す文字列の配置に基づき契約書を分割し、分割した契約書毎に契約の締結日を出力する。契約書の表題は、一般的に、契約書の最初の頁に記載されていることが多い。そこで、締結日特定部１０４は、抽出した表題のうち後ろの方に表されている表題の頁とその前の頁との間で契約書を分割する。これにより、複数の契約書が連結された文書からでも契約の締結日が特定されることになる。

［２－７］簡易判定
契約書によっては、日付が１つしか含まれていないものがある。その場合の日付は、契約の締結日を表している蓋然性が極めて高い。そこで、締結日特定部１０４は、認識された文字が示す日付が１つの場合はその日付を契約の締結日として特定及び出力してもよい。これにより、契約書に含まれる日付が１つの場合は前後領域に文字が存在するか否かを判断する処理が不要になるので、常に同じ方法で判定を行う場合に比べて、判定の処理の負荷が軽減される。

［２－８］判定領域の細分化
契約書においては、契約の締結日が記載される領域が似通った位置になりやすい。例えば、契約の内容を一通り書き終えたあとの領域である。また、契約書の冒頭の領域に締結日を記載する場合もある。そこで、本変形例では、締結日特定部１０４は、まず、原稿画像のうち特定の領域に表された日付について前後領域に他の文字があるか否かを判定する。

特定の領域とは、例えば、契約書の冒頭の定められた数の頁又は契約書の最後の定められた数の頁である。締結日特定部１０４は、特定の領域に表された日付について前後領域に他の文字がないと判定した場合は、その判定結果で確定させる。この場合、締結日特定部１０４は、この判定がされた日付を契約の締結日として特定及び出力する。

また、締結日特定部１０４は、特定の領域に表された日付のうちの１つでも前後領域に他の文字があると判定した場合、すなわち、特定の領域に他の文字がない日付がない場合は、特定の領域ではない他の領域に表された日付について前後領域に他の文字があるか否かを判定する。これにより、契約書に含まれる全ての日付について常に判定を行う場合に比べて、判定の処理の負荷が軽減される。

［２－９］機能構成
契約締結日特定システム１において図４に表す機能を実現する方法は実施例で述べた方法に限らない。例えば、文書処理装置１０は、１つの筐体内に全ての構成要素を備えていてもよいし、クラウドサービスで提供されるコンピュータリソースのように２以上の筐体内に分散した構成要素を備えていてもよい。

また、画像取得部１０１、文字認識部１０２、判定部１０３及び締結日特定部１０４のうち１以上の機能が読取装置２０によって実現されてもよい。また、画像読取部２０１及び締結日表示部２０２のうち１以上の機能が文書処理装置１０によって実現されてもよい。

また、例えば判定部１０３は、実施例では不要部分を消去する処理と前後領域について判定を行う処理の両方の処理を行ったが、それらの処理を別々の機能が行ってもよい。また、例えば判定部１０３及び締結日特定部１０４が行う動作を、１つの機能が行ってもよい。要するに、契約締結日特定システム全体として図４に表された機能が実現されていれば、各機能を実現する装置の構成と、各機能が行う動作の範囲とは自由に定められてよい。

［２－１０］プロセッサ
上記各実施例において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばCPU：Central Processing Unit、等）や、専用のプロセッサ（例えばGPU：Graphics Processing Unit、ASIC：Application Specific Integrated Circuit、FPGA：Field Programmable Gate Array、プログラマブル論理デバイス、等）を含むものである。

また上記各実施例におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

［２－１１］発明のカテゴリ
本発明は、文書処理装置１０及び読取装置２０という各情報処理装置の他、それらの情報処理装置を備える情報処理システム（契約締結日特定システム１がその一例）としても捉えられる。また、本発明は、各情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるし、各情報処理装置を制御するコンピュータを機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等の通信回線を介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。

１…契約締結日特定システム、１０…文書処理装置、２０…読取装置、１０１…画像取得部、１０２…文字認識部、１０３…判定部、１０４…締結日特定部、２０１…画像読取部、２０２…締結日表示部。

Claims

プロセッサを備え、
前記プロセッサは、
締結された契約の文書を表す画像を取得し、
取得した前記画像から文字を認識し、
認識される前記文字の前記画像内の位置を算出し、
算出した前記位置に基づき、読み取った前記文字が示す日付の前後に存在する前後領域に他の文字があるか否かを判定し、
前記前後領域に他の文字がないと判定された前記日付を前記契約の締結日として出力する
情報処理装置。
前記プロセッサが、取得した前記画像から定められた条件を満たす部分を消去してから前記判定を行う
請求項１に記載の情報処理装置。
前記プロセッサが、取得した前記画像から特定の色の部分を前記条件を満たす部分として消去する
請求項２に記載の情報処理装置。
前記プロセッサが、取得した前記画像から、認識した前記文字を含む文字領域を除く部分を前記条件を満たす部分として消去する
請求項２に記載の情報処理装置。
前記プロセッサが、取得した前記画像を変換した結果の画像に基づき前記判定を行う
請求項１に記載の情報処理装置。
前記プロセッサが、取得した前記文書を表す画像が当該文書の２頁分の大きさである場合、当該画像を半分に分割してから前記判定を行う
請求項１から５のいずれか１項に記載の情報処理装置。
前記画像は長方形であり、
前記プロセッサが、前記画像の向かい合う辺に挟まれ且つ当該画像の角を含まない長方形の領域のうち、認識された文字が存在せず且つ幅が最大になる領域の当該幅が閾値以上である場合に、前記画像が前記文書の２頁分の大きさであると判断する
請求項６に記載の情報処理装置。
前記プロセッサが、取得した前記文書を表す画像が当該文書の３頁以上の頁数分の大きさである場合、当該画像を当該頁数分に分割してから前記判定を行う
請求項１から７のいずれか１項に記載の情報処理装置。
前記プロセッサが、前後領域に他の文字がないと判定される日付が２以上ある場合、前記文書の表題を示す文字列を抽出し、抽出した前記表題を示す文字列の配置に基づき前記文書を分割し、分割した前記文書毎に前記契約の締結日を出力する
請求項１から８のいずれか１項に記載の情報処理装置。
前記プロセッサが、認識した前記文字が示す日付が１つの場合は当該日付を前記契約の締結日として出力する
請求項１から９のいずれか１項に記載の情報処理装置。
前記プロセッサが、前記文書を表す画像のうち特定の領域に表された前記日付について前記他の文字があるか否かを判定し、当該特定の領域に前記他の文字がない日付がない場合に、他の領域に表された前記日付について前記他の文字があるか否かを判定する
請求項１から１０のいずれか１項に記載の情報処理装置。
前記特定の領域は、前記文書の冒頭の定められた数の頁又は前記文書の最後の定められた数の頁である
請求項１１に記載の情報処理装置。