JP2021157627A

JP2021157627A - 情報処理装置

Info

Publication number: JP2021157627A
Application number: JP2020058736A
Authority: JP
Inventors: 周作久保; Shusaku Kubo; 邦彦小林; Kunihiko Kobayashi; 茂岡田; Shigeru Okada; 裕介鈴木; Yusuke Suzuki; 真太郎安達; Shintaro Adachi
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2021-10-07
Also published as: US20210303790A1; CN113449731A

Abstract

【課題】文章の一部として登場する情報を適切に抽出すること。【解決手段】画像取得部１０１は、送信されてきた画像データが示す文書画像を、締結された契約の文書を表す画像として取得する。文字認識部１０２は、取得された文書画像から文字を認識する。結合部１０３は、文字認識部１０２により認識された文字の並びで表される文章の改行された部分を繋げた文字列（以下「結合文字列」と言う）を生成する。情報抽出部１０４は、結合部１０３により生成された結合文字列から指定された情報を表している部分（以下「指定情報」と言う）を抽出する。情報抽出部１０４は、本実施例では、結合文字列に複数の第１文字列のうちのいずれかが含まれている場合、含まれている第１文字列に対応付けられた規則で配置された第２文字列を指定情報として抽出する。情報抽出部１０４は、抽出した指定情報から定められた語句を除外して、除外後に残された情報を指定情報として抽出する。【選択図】図４

Description

本発明は、情報処理装置に関する。

特許文献１には、文書における出現位置が所定の範囲にある文字フィールドを抽出して品詞パターンを照合することで文書属性を抽出する技術が記載されている。

特開２００４−１７８０４４号公報

特許文献１の技術であれば名刺のように文字が表される範囲が決まっている文書から情報を抽出することができる。しかし、例えば契約書における契約者名のように文章の一部として登場する情報は、文書内で表される位置が決まっていないので抽出することが難しい。また、その情報が文章の途中で改行する箇所を跨っていると、さらに抽出が難しくなる。
そこで、本発明は、文章の一部として登場する情報を適切に抽出することを目的とする。

本発明の請求項１に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文書を表す画像を取得し、取得した前記画像から文字を認識し、認識した前記文字の並びで表される文章の改行された部分を繋げた結合文字列を生成し、生成した前記結合文字列から指定された情報を表している部分を抽出することを特徴とする。

本発明の請求項２に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサが、取得した前記画像から定められた条件を満たす部分を消去してから文字を認識することを特徴とする。

本発明の請求項３に係る情報処理装置は、請求項２に記載の態様において、前記プロセッサが、取得した前記画像から特定の色の部分を前記条件を満たす部分として消去することを特徴とする。

本発明の請求項４に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサが、取得した前記画像を変換した結果の画像に基づいて文字を認識することを特徴とする。

本発明の請求項５に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサが、前記文章を分割して複数の前記結合文字列を生成し、複数の前記結合文字列について順次前記抽出を行い、定められた終了条件が満たされると前記抽出を終了することを特徴とする。

本発明の請求項６に係る情報処理装置は、請求項５に記載の態様において、前記プロセッサが、前記文章に含まれている特定の文字を境目として当該文章を分割することを特徴とする。

本発明の請求項７に係る情報処理装置は、請求項５に記載の態様において、前記プロセッサが、前記指定された情報の種類に応じた箇所で前記文章を分割することを特徴とする。

本発明の請求項８に係る情報処理装置は、請求項５に記載の態様において、前記プロセッサが、前記文書の種類に応じた箇所で前記文章を分割することを特徴とする。

本発明の請求項９に係る情報処理装置は、請求項１から８のいずれか１項に記載の態様において、前記プロセッサが、取得した前記文書を表す画像が当該文書の複数の頁数分の大きさである場合、当該画像を前記複数の頁数分に分割してから文字を認識することを特徴とする。

本発明の請求項１０に係る情報処理装置は、請求項１から９のいずれか１項に記載の態様において、前記プロセッサが、前記結合文字列に複数の第１文字列のうちのいずれかが含まれている場合、含まれている前記第１文字列に対応付けられた規則で配置された第２文字列を前記部分として抽出することを特徴とする。

本発明の請求項１１に係る情報処理装置は、請求項１から１０のいずれか１項に記載の態様において、前記プロセッサが、抽出した前記部分から定められた語句を除外することを特徴とする。

本発明の請求項１２に係る情報処理装置は、請求項１１に記載の態様において、前記定められた語句は、前記文書に登場する人物の特定の呼称を示す語句であることを特徴とする。

本発明の請求項１３に係る情報処理装置は、請求項１から１２のいずれか１項に記載の態様において、前記プロセッサが、生成した前記結合文字列から特定の品詞の語句を前記部分として抽出することを特徴とする。

本発明の請求項１４に係る情報処理装置は、請求項１３に記載の態様において、前記品詞は、固有名詞であることを特徴とする。

請求項１に係る発明によれば、文章の一部として登場する情報を適切に抽出することができる。
請求項２に係る発明によれば、本発明の消去を行わない場合に比べて、指定情報の抽出の精度を悪化させるということを抑制することができる。
請求項３に係る発明によれば、本発明の消去を行わない場合に比べて、特定の色の部分が文字として認識されることによる指定情報の抽出の精度を悪化を抑制することができる。
請求項４に係る発明によれば、画像変換の技術を利用して文字を認識することができる。
請求項５に係る発明によれば、文書を分割しない場合に比べて、情報抽出の処理の負荷を軽減することができる。
請求項６に係る発明によれば、無作為に文章を分割する場合に比べて、分断された文字列が抽出されないという事態を生じにくくすることができる。
請求項７に係る発明によれば、文書の冒頭部分で文書を分割しない場合に比べて、指定された情報の抽出の処理の負荷をより確実に軽減することができる。
請求項８に係る発明によれば、本発明の分割が行われない場合に比べて、指定された情報の抽出の処理の負荷をより確実に軽減することができる。
請求項９に係る発明によれば、行毎又は列毎に頁をまたいで文が続いているという誤認識を防ぐことができる。
請求項１０に係る発明によれば、特定の文字列（第１文字列）と配置が特定の関係になる文字列（第２文字列）を抽出することができる。
請求項１１、１２に係る発明によれば、語句の除外を行わない場合に比べて、より精度の高い情報の部分を抽出することができる。
請求項１３に係る発明によれば、本発明の抽出が行われない場合に比べて、特定の品詞の語句を適切に抽出することができる。
請求項１４に係る発明によれば、本発明の抽出が行われない場合に比べて、固有名詞の語句を適切に抽出することができる。

実施例に係る情報抽出支援システムの全体構成を表す図文書処理装置のハードウェア構成を表す図読取装置のハードウェア構成を表す図情報抽出支援システムにおいて実現される機能構成を表す図文章の改行された部分の一例を表す図生成された結合文字列の一例を表す図文字列テーブルの一例を表す図指定情報の抽出の一例を表す図指定情報の抽出に関する画面の一例を表す図抽出処理における動作手順の一例を表す図

［１］実施例
図１は実施例に係る情報抽出支援システム１の全体構成を表す。情報抽出支援システム１は、指定された情報を文書から抽出するための処理を行うシステムである。文書とは、文字によって内容が書き記された媒体である。ここでいう媒体には、本のような有体物だけでなく、電子書籍のような無体物も含まれる。

文書に用いられる文字には、漢字、平仮名、片仮名、アルファベット及び符号（句読点など）等が含まれる。文章とは、複数の文で表現されたものであり、文とは、終わりに句点（＝「。」）が配置された文字列である。本実施例では、文書の一例である契約書から、契約者名、商品名又はサービス名等の情報を抽出する場合を例に取って説明する。

情報抽出支援システム１は、通信回線２と、文書処理装置１０と、読取装置２０とを備える。通信回線２は、移動体通信網及びインターネット等を含む通信システムであり、自システムにアクセスする装置同士のデータのやり取りを中継する。通信回線２には、文書処理装置１０及び読取装置２０が有線通信でアクセスしている。なお、通信回線２へのアクセスは無線通信でもよい。

読取装置２０は、文書を読み取り、その文書に表された文字等を示す画像データを生成する処理を行う情報処理装置である。読取装置２０は、契約書の原本を文書として読み取った契約書画像データを生成する。文書処理装置１０は、契約書の画像から契約の締結日を特定する処理を行う情報処理装置である。文書処理装置１０は、読取装置２０が生成した契約書画像データに基づいて契約の締結日を特定する。

図２は文書処理装置１０のハードウェア構成を表す。文書処理装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信装置１４と、ＵＩ装置１５（ＵＩ＝User Interface）とを備えるコンピュータである。プロセッサ１１は、例えば、ＣＰＵ（＝Central Processing Unit）等の演算装置、レジスタ及び周辺回路等を有する。メモリ１２は、プロセッサ１１が読み取り可能な記録媒体であり、ＲＡＭ（＝Random Access Memory）及びＲＯＭ（＝Read Only Memory）等を有する。

ストレージ１３は、プロセッサ１１が読み取り可能な記録媒体であり、例えば、ハードディスクドライブ又はフラッシュメモリ等を有する。プロセッサ１１は、ＲＡＭをワークエリアとして用いてＲＯＭやストレージ１３に記憶されているプログラムを実行することで各ハードウェアの動作を制御する。通信装置１４は、アンテナ及び通信回路等を有し、通信回線２を介した通信を行う通信手段である。

ＵＩ装置１５は、自装置を利用するユーザに対して提供されるインターフェースである。ＵＩ装置１５は、例えば、表示手段であるディスプレイと、ディスプレイの表面に設けられたタッチパネルとを有するタッチスクリーンを有し、画像を表示すると共に、ユーザからの操作を受け付ける。また、ＵＩ装置１５は、タッチスクリーン以外にも、キーボード等の操作子を有し、それらの操作子への操作を受け付ける。

図３は読取装置２０のハードウェア構成を表す。読取装置２０は、プロセッサ２１と、メモリ２２と、ストレージ２３と、通信装置２４と、ＵＩ装置２５と、画像読取装置２６とを備えるコンピュータである。プロセッサ２１からＵＩ装置２５までは、図２に表すプロセッサ１１からＵＩ装置１５までと同種のハードウェアである。

画像読取装置２６は、文書を読み取りその文書に表された文字等（文字、記号、絵及び図柄等）を示す画像データを生成する装置であり、いわゆるスキャナである。画像読取装置２６は、文書に表された文字等が色彩を有する場合には、その色彩も読み取るカラースキャン機能を有する。

情報抽出支援システム１においては、上記の各装置のプロセッサがプログラムを実行して各部を制御することで、以下に述べる各機能が実現される。各機能が行う動作は、その機能を実現する装置のプロセッサが行う動作としても表される。

図４は情報抽出支援システム１において実現される機能構成を表す。文書処理装置１０は、画像取得部１０１と、文字認識部１０２と、結合部１０３と、情報抽出部１０４とを備える。読取装置２０は、画像読取部２０１と、情報表示部２０２とを備える。

読取装置２０の画像読取部２０１は、画像読取装置２６を制御して、文書に表された文字等を読み取り、その文書を表す画像（以下「文書画像」と言う）を生成する。ユーザが契約書の原本を１枚ずつめくりながら画像読取装置２６にセットして読み取りの操作を行うと、画像読取部２０１が、読み取りの操作の度に文書画像を生成する。

画像読取部２０１は、生成した文書画像を示す画像データを文書処理装置１０に送信する。文書処理装置１０の画像取得部１０１は、送信されてきた画像データが示す文書画像を、締結された契約の文書を表す画像として取得する。画像取得部１０１は、取得した文書画像を文字認識部１０２に供給する。文字認識部１０２は、供給された文書画像から文字を認識する。

文字認識部１０２は、例えば周知のＯＣＲ（Optical Character Recognition）技術を用いて文字を認識する。文字認識部１０２は、まず、文書画像に対して文字が並べられた領域を特定するレイアウト解析を行い、横書きの場合は文字が並べられた行を１行ずつ特定し、縦書きの場合文字が並べられた列を１列ずつ特定する。文字認識部１０２は、さらに各行又は各列に表されている文字と文字の隙間の空白の領域を認識することで文字を含む矩形の画像を１文字ずつ切り出す処理を行う。

その際、文字認識部１０２は、切り出した文字（後ほど認識することになる文字）の画像内での位置も算出する。文字認識部１０２は、例えば、文書画像の左上角を原点とした２次元座標系の座標で表す位置を文字の位置として算出する。文字の位置は、例えば切り出された矩形の画像の中心の画素の位置で表される。文字認識部１０２は、切り出した矩形の画像に含まれる文字に対して正規化、特徴量抽出、マッチング及び知識処理等の処理を行って認識する。

正規化とは、文字のサイズ及び形を一定にする処理である。特徴量抽出とは、文字の特徴を表す量を抽出する処理である。マッチングとは、標準的な文字の特徴量を記憶しておき、抽出された特徴量と最も類似する特徴量の文字を特定する処理である。知識処理とは、日本語の単語情報を記憶しておき、認識した文字が示す単語が記憶されていない場合に記憶されている似通った単語に訂正する処理である。

文字認識部１０２は、認識した文字とその文字について算出した位置と文字が並ぶ方向（行を特定した場合は横方向、列を特定した場合は縦方向）とを示す文字データを結合部１０３に供給する。結合部１０３は、文字認識部１０２により認識された文字の並びで表される文章の改行された部分を繋げた文字列（以下「結合文字列」と言う）を生成する。

ここでいう改行とは、行の途中で文が終了して次の行に移ることを言う。なお、文章が横書きの場合は文字の並びを「行」と言うが、縦書きの場合、すなわち文字が縦に並んで列となっている場合でも、列の途中で文が終了して次の列に移ることを「改行」と言うものとする。また、改行には、文章の作成者が明示的に行う改行だけでなく、文書作成アプリが自動的に行う文字列の折り返し（段落内改行とも言う）も含まれる。

図５は文章の改行された部分の一例を表す。図５では、表題Ａ１と、段落Ａ２、Ａ３、Ａ４、Ａ５が表された文書画像Ｄ１が表されている。表題Ａ１から段落Ａ５までは、いずれも冒頭から最後に明示的な改行がされるまで文字が並んでいる。結合部１０３は、文字認識部１０２から供給された文字データが示す文字の位置及び文字が並ぶ方向から文章を形成する文字の並びを特定する。

結合部１０３は、文書画像Ｄ１の場合、本実施例では、表題Ａ１から段落Ａ５までの文字の並びを特定する。この場合、結合部１０３は、前述した段落内改行については改行前の行の文字列と改行後の行の文字列とを結合している。次に、結合部１０３は、特定した文字の並びの順番を決定する。結合部１０３は、例えば、文書画像Ｄ１の場合、文書画像の左辺Ｃ１からの距離と上辺Ｃ２からの距離に基づいて文字の並びの順番を決定する。

具体的には、結合部１０３は、左辺Ｃ１からの距離が上辺Ｃ２の長さの半分未満である文字の並びの順番を、左辺Ｃ１からの距離が上辺Ｃ２の長さの半分以上である文字の並びの順番よりも先にする。また、結合部１０３は、左辺Ｃ１からの距離が上辺Ｃ２の長さの半分未満である文字の並びのうち上辺Ｃ２からの距離が短いほど順番を先にし、左辺Ｃ１からの距離が上辺Ｃ２の長さの半分以上である文字の並びのうち上辺Ｃ２からの距離が短いほど順番を先にする。

図５の例では、結合部１０３は、表題Ａ１が最初で、段落Ａ２、Ａ３、Ａ４が続き、最後が段落Ａ５という順番を決定する。結合部１０３は、特定した文字の並びを、決定した順番で並べて結合した文字列を結合文字列として生成する。こうして生成された結合文字列は、文章の改行された部分を繋げた文字列となる。なお、結合部１０３は、上記例では段落内改行について予め結合した文字の並びを特定したが、段落内改行を予め結合せず、１行毎に文字の並びを特定してもよい。その場合でも、結合部１０３は、各行の文字の並びの順番を同様の方法で決定し、結合文字列を生成する。

図６は生成された結合文字列の一例を表す。図６の例では、結合部１０３は、表題Ａ１、段落Ａ２、段落Ａ３、段落Ａ４、段落Ａ５を順番に結合した結合文字列Ｂ１を生成している。結合文字列Ｂ１は、文書画像Ｄ１に表された文章の改行された部分を繋げた形になっている。結合部１０３は、生成した結合文字列を示す文字列データを情報抽出部１０４に供給する。

情報抽出部１０４は、結合部１０３により生成された結合文字列から指定された情報を表している部分（以下「指定情報」と言う）を抽出する。情報抽出部１０４は、本実施例では、結合文字列に複数の第１文字列のうちのいずれかが含まれている場合、含まれている第１文字列に対応付けられた規則で配置された第２文字列を指定情報として抽出する。

また、情報抽出部１０４は、上記の方法で抽出した指定情報から定められた語句を除外して、除外後に残された情報を指定情報として抽出する。情報抽出部１０４は、第１文字列、第２文字列及び除外語句（＝除外するものとして定められた語句）を対応付けた文字列テーブルを用いて指定情報を抽出する。

図７は文字列テーブルの一例を表す。図７の例では、「（以下、甲という）」、「（以下甲という）」、「（以下「甲」という）」、「（以下、「甲」という）」、「（以下、「甲」という。）」、「（以下、乙という）」、「（以下乙という）」、「（以下「乙」という）」、「（以下、「乙」という）」、「（以下、「乙」という。）」という第１文字列に、「契約者名」という第２文字列が対応付けられている。

また、「契約者名」という第２文字列には、「発注者/受注者/買い主/売り主/買主/売主/本日/買受人/売渡人/である」という除外語句が対応付けられている。この文字列テーブルを用いた指定情報の抽出例について図８を参照して説明する。
図８は指定情報の抽出の一例を表す。図８（ａ）では、「売り主ＡＢＣＤ株式会社（以下甲という）と、買い主ＥＦＧ産業株式会社（以下乙という）とは・・。」という結合文字列Ｂ２が表されている。

情報抽出部１０４は、結合部１０３から供給された文字列データが示す結合文字列から、第１文字列と一致する文字列を検索する。情報抽出部１０４は、図８の例であれば、図８（ｂ）に表すように「（以下甲という）」という文字列Ｆ１と、「（以下乙という）」という文字列Ｆ２とを検索する。情報抽出部１０４は、検索された文字列の前に配置されている文字列を取得する。

なお、情報抽出部１０４は、検索された文字列の前に他の検索された文字列がある場合は、その文字列の直後の文字から取得する。また、情報抽出部１０４は、検索された文字列の前に読点（「、」）がある場合は、その読点の直後の文字から取得する。情報抽出部１０４は、図８の例であれば、図８（ｂ）に表すように文字列Ｆ１の前の「売り主ＡＢＣＤ株式会社」という文字列Ｇ１を取得する。

また、情報抽出部１０４は、文字列Ｆ２の前には文字列Ｆ１もあるが、その前に読点があるので、読点の直後の文字から文字列Ｆ２の直前の文字までの「買い主ＥＦＧ産業株式会社」という文字列Ｇ２を取得する。そして、情報抽出部１０４は、取得した文字列Ｇ１及びＧ２から除外語句を除外する。情報抽出部１０４は、例えば文字列Ｇ１であれば、図８（ｃ）に表すように「売り主」という除外語句を除外した「ＡＢＣＤ株式会社」という文字列Ｈ１を抽出する。

また、情報抽出部１０４は、文字列Ｇ２であれば、図８（ｃ）に表すように「買い主」という除外語句を除外した「ＥＦＧ産業株式会社」という文字列Ｈ２を抽出する。このように、本実施例では、除外語句には、文書に登場する人物の特定の呼称を示す語句が含まれる。本実施例における「登場する人物」は契約者本人であり、「特定の呼称を示す語句」は「発注者/受注者/買い主/売り主/買主/売主/買受人/売渡人」である。発注者等は、契約者本人のことを別の言い方で表した語句である。

情報抽出部１０４は、以上のとおり抽出した指定情報を示す指定情報データを読取装置２０に送信する。読取装置２０の情報表示部２０２は、情報抽出部１０４により抽出された指定情報を表示する。情報表示部２０２は、例えば、指定情報の抽出に関する画面を表示する。

図９は指定情報の抽出に関する画面の一例を表す。図９（ａ）の例では、情報表示部２０２は、情報抽出画面として、指定情報を抽出する対象となる文書を指定する文書指定欄Ｅ１と、抽出したい情報を指定する情報指定欄Ｅ２と、抽出の開始ボタンＥ３とを表示している。情報表示部２０２は、開始ボタンＥ３を押す操作が行われると、文書指定欄Ｅ１及び情報指定欄Ｅ２にて指定された文書及び指定情報を示す抽出要求データを文書処理装置１０に送信する。

文書処理装置１０の情報抽出部１０４は、抽出要求データを受信すると、抽出要求データが示す文書の結合文字列から同じく抽出要求データが示す指定情報を抽出し、抽出した指定情報を示す指定情報データを読取装置２０に送信する。情報表示部２０２は、図９（ｂ）に表すように、受信した指定情報データが示す指定情報を抽出結果として表示する。

情報抽出支援システム１が備える各装置は、上記の構成により、指定情報を抽出する抽出処理を行う。
図１０は抽出処理における動作手順の一例を表す。まず、読取装置２０（画像読取部２０１）は、文書としてセットされた契約書に表された文字等を読み取り、文書画像を生成する（ステップＳ１１）。次に、読取装置２０（画像読取部２０１）は、生成した文書画像を示す画像データを文書処理装置１０に送信する（ステップＳ１２）。

文書処理装置１０（画像取得部１０１）は、送信されてきた画像データが示す文書画像を取得する（ステップＳ１３）。次に、文書処理装置１０（文字認識部１０２）は、取得された文書画像から文字を認識する（ステップＳ１４）。続いて、文書処理装置１０（結合部１０３）は、ステップＳ１４で認識された文字の並びで表される文章の改行された部分を繋げた結合文字列を生成する（ステップＳ１５）。

次に、文書処理装置１０（情報抽出部１０４）は、ステップＳ１５で生成された結合文字列から指定された情報を表している部分である指定情報を抽出する（ステップＳ１６）。続いて、文書処理装置１０（情報抽出部１０４）は、ステップＳ１６において抽出された指定情報を示す指定情報データを読取装置２０に送信する（ステップＳ１７）。読取装置２０（情報表示部２０２）は、送信されてきた指定情報データが示す指定情報を表示する（ステップＳ１８）。

以上のとおり、本実施例では、結合文字列が生成されて指定情報が抽出される。文書に表された文字列は、例えば段落内改行を跨る位置に記載されると、途中で分断された２つの文字列になる。例えば鵜８に表す「ＡＢＣＤ株式会社」が段落内改行によって「ＡＢＣ」と「Ｄ株式会社」に分断されていると、「ＡＢＣＤ株式会社」という契約者名という指定情報が抽出されなくなる。

本実施例では、結合文字列を生成することでこのような分断が生じないようになるので、結合文字列を生成しない場合に比べて、文章の一部として登場する情報が指定情報として適切に抽出されることになる。また、本実施例では、第１文字列に対応付けられた規則で配置された第２文字列が抽出される。これにより、特定の文字列（第１文字列）と配置が特定の関係になる文字列（第２文字列）が抽出されることになる。

また、本実施例では、除外語句が除外される。これにより、語句の除外を行わない場合に比べて、より精度の高い指定情報が抽出される。

［２］変形例
上述した実施例は本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施例及び各変形例は、必要に応じて組み合わせて実施してもよい。

［２−１］情報の抽出方法
情報抽出部１０４は、実施例と異なる方法で指定情報を抽出してもよい。情報抽出部１０４は、例えば、結合部１０３により生成された結合文字列から特定の品詞の語句を指定情報として抽出してもよい。特定の品詞とは、例えば固有名詞である。指定情報を抽出する対象の文書が契約書であれば、例えば「会社名」、「製品名」及び「サービス名」等が固有名詞として登場する。

情報抽出部１０４は、例えば文書に登場する可能性がある固有名詞のリストを記憶しておき、リストに含まれる各固有名詞を結合文字列から検索する。情報抽出部１０４は、検索により見つかった固有名詞がある場合には、その固有名詞を指定情報として抽出する。これにより、本変形例の抽出が行われない場合に比べて、特定の品詞の語句（上記の例では固有名詞の語句）が適切に抽出されることになる。

［２−２］文章の分割
実施例では、１つの文書について１つの結合文字列が生成されたが、１つの文書について複数の結合文字列が生成されてもよい。本変形例では、結合部１０３は、文書に表されている文章を分割して複数の結合文字列を生成する。結合部１０３は、例えば、文章に含まれている特定の文字を境目として文章を分割する。

そして、情報抽出部１０４は、複数の結合文字列について順次指定情報の抽出を行い、定められた終了条件が満たされると指定情報の抽出を終了する。特定の文字とは、例えば、「：」（＝コロン）、「第〇章」（「○」には数字が入る）又は「後ろが空白の文字」等である。これらの文字は、いずれも文章の切れ目を表している。そのため、これらの文字の前後では文が完結しているため、これらの文字を跨いで文字列が分断されることがほとんどない。

そのため、分割された結合文字列から指定情報が抽出される場合には、例えば無作為に文章を分割する場合に比べて、分断された文字列が抽出されないという事態が生じにくい。情報抽出部１０４は、例えば、必要な指定情報が少なくとも１つ抽出された場合に満たされる条件を終了条件として用いてもよい。

例えば契約書から「契約者名」及び「商品名」を抽出する場合であれば、情報抽出部１０４は、少なくとも１つの「契約者名」と少なくとも１つの「商品名」が分割された結合文字列から抽出されたときに、終了条件が満たされたと判断して指定情報の抽出を終了する。この場合、複数の分割された結合文字列の中には、指定情報の抽出処理が行われないものが生じうる。そのため、文書を分割しない場合に比べて、指定情報の抽出の処理の負荷が軽減されることになる。

なお、結合文字列の分割方法は上記方法に限らない。結合部１０３は、例えば、指定情報の種類に応じた箇所で文章を分割してもよい。結合部１０３は、例えば、指定情報の種類が「契約者名」であれば、文書の冒頭部分（例えば文量が最初の１割に当たる部分など）とそれ以降の部分とを分割した結合文字列を生成する。文書の冒頭部分に契約者名が登場する可能性は他の部分に比べて高いので、文書の冒頭部分で文書を分割しない場合に比べて、指定情報の抽出の処理の負荷がより確実に軽減されることになる。

なお、結合部１０３は、指定情報の種類が「契約者捺印」であれば、文書の終盤部分（例えば文量が最後の１割に当たる部分など）とそれ以前の部分とを分割した結合文字列を生成する。この場合、情報抽出部１０４は、複数の結合文字列のうち指定情報の種類に応じた位置（「契約者捺印」の例であれば文章の終盤の位置）に配置された、分割された結合文字列から順次指定情報の抽出を行ってもよい。これにより、分割された結合文字列を一律に文章に登場する順番で指定情報の抽出を行う場合に比べて、指定情報の抽出の処理の負荷がより確実に軽減されることになる。

また、結合部１０３は、指定情報の抽出対象である文書の種類に応じた箇所で文章を分割してもよい。結合部１０３は、例えば、文書の種類が「契約書」であれば、文書の冒頭からの文量の割合が１：８：１となるように結合文字列を分割する。また、結合部１０３は、文書の種類が「提案書」であれば、文書の冒頭からの文量の割合が１：４：４：１となるように結合文字列を分割する。

この場合、情報抽出部１０４は、複数の結合文字列のうち文書の種類に応じた位置に配置された、分割された結合文字列から順次指定情報の抽出を行う。例えば文書の種類が契約書であれば、情報抽出部１０４は、１：８：１に分割した結合文字列のうち、最初の結合文字列、最後の結合文字列、真ん中の結合文字列の順番で指定情報の抽出を行う。

また、文書の種類が提案書であれば、情報抽出部１０４は、１：４：４：１に分割した結合文字列のうち、最初の結合文字列、最後の結合文字列、２番目の結合文字列、３番目の結合文字列の順番で指定情報の抽出を行う。契約書の場合、指定情報になりやすい「契約者名」、「商品名」及び「サービス名」等は文書の冒頭に登場しやすい。また、同じく指定情報になりやすい「契約者捺印」は文書の終盤に登場しやすい。

また、提案書の場合、指定情報になりやすい「顧客名」、「提案会社名」、「商品名」及び「サービス名」等は文書の冒頭又は終盤に登場しやすい。このように、指定情報が登場しやすい位置の結合文字列から順番に抽出の処理が行われることで、分割された結合文字列を一律に文章に登場する順番で指定情報の抽出を行う場合に比べて、指定情報の抽出の処理の負荷がより確実に軽減されることになる。

［２−３］画像の分割
例えば見開き頁を読み取った文書画像の場合、１枚の画像に２頁分が含まれることがある。また、４アップ又は８アップ等のレイアウトで作成された文書画像の場合、１枚の画像に３頁以上の頁が含まれることがある。そのように画像取得部１０１により取得された文書画像がその文書の複数の頁数分の大きさである場合、文字認識部１０２は、その文書画像をそれら複数の頁数分に分割してから文字を認識する。

文書画像は通常長方形の画像である。文字認識部１０２は、例えば、取得された文書画像の向かい合う辺に挟まれ且つ文書画像の角を含まない長方形の領域のうち、認識された文字が存在せず且つ幅が最大になる領域（以下「非文字領域」と言う）のその幅が閾値以上であるものによって仕切られた領域の数を１枚の画像に含まれる頁の頁数と判断する。

ここでいう「幅」とは、一方の辺から他方の辺に向かう方向に直交する方向の寸法のことである。文字認識部１０２は、この判断を行うと、例えば、各非文字領域の幅方向の中心を通る線で文書画像を分割し、新たな文書画像を分割画像として生成する。文字認識部１０２は、生成した各分割画像に対して、実施例と同様に文字の認識を行う。

１枚の画像に２頁以上の頁が含まれている場合、文字の大きさ及び間隔によっては例えば左側の頁の行の続きが１つ下の行ではなく右側の頁の行になっていると間違えるおそれがある。また、縦書きの文書であれば、上の頁の列の続きが１つ左側の列ではなくて下の頁の列になっていると間違えるおそれがある。本変形例では、頁毎に画像を分割するので、行毎又は列毎に頁をまたいで文が続いているという誤認識が防がれる。

［２−４］不要部分の消去
文字認識部１０２は、画像取得部１０１により取得された文書画像のうち定められた条件（以下「消去条件」と言う）を満たす部分を消去してから文字を認識してもよい。消去条件を満たす部分は、文字の認識に不要な部分であり、以下では「不要部分」とも言う。

具体的には、文字認識部１０２は、取得された文書画像のうち特定の色の部分を前記条件を満たす部分として消去する。特定の色とは、例えば、印鑑に用いられる赤い色である。その場合、不要部分を消去しない場合に比べて、文書に含まれる印鑑の文字を含む文章の文字列が認識されて指定情報の抽出の精度を悪化させるということが抑制される。

なお、文字認識部１０２は、取得された文書画像から、認識された文字を含む文字領域を除く部分を不要部分として消去してもよい。文字認識部１０２は、例えば、認識した文字の塊を囲む最小の四角形を文字領域として特定する。そして、文字認識部１０２は、特定した文字領域を除く部分を不要部分として消去する。文字認識部１０２は、不要部分を消去したあとに、実施例と同様に契約の文字を認識する。

例えば契約書を読み取った文書画像には、頁の折り目の影及び製本テープの影等が含まれる場合がある。読取領域にそれらの影等が含まれていて且つそれらの影等が誤って文字と認識されると、指定情報の抽出の精度を悪化させる可能性がある。本変形例では、上記の消去処理が行われることで、それらの影等の影響が除去され、その消去処理が行われない場合に比べて、指定情報の抽出の精度を悪化させるということが抑制される。

［２−５］不要部分の変換
文字認識部１０２は、文書画像のうち不要部分を消去したが、代わりに不要部分を含まない画像に変換することで、結果的に不要部分が消去された状態にしてもよい。画像の変換には、例えば、ＧＡＮ（Genera tive Adversarial Networks：敵対的生成ネットワーク）と呼ばれる機械学習が用いられてもよい。

ＧＡＮとは、２つのネットワーク（生成器と識別器）を競わせながら学習させるアーキテクチャであり、画像生成の手法としてよく用いられている。生成器は、ランダムなノイズ画像から偽物の画像を生成する。識別器は、生成された画像が教師データに含まれる「本物」か否かを判定する。

文字認識部１０２は、例えば、ＧＡＮにより捺印のない契約書の画像を生成し、生成した画像に基づき実施例と同様に文字を認識する。このように、文字認識部１０２は、本変形例では、取得された文書画像を変換した結果の画像に基づき文字を認識する。これにより、画像変換の技術を利用して指定情報の抽出の精度を悪化させるということが抑制される。

［２−６］文書画像
画像取得部１０１は、実施例では、契約書の原本を読み取って生成された文書画像を取得したが、これに限らず、例えば電子契約を行うシステムにおいて電子的に作成された契約書データが示す文書画像を取得してもよい。画像取得部１０１は、同様に、文書の種類によらず電子的に作成された文書データが示す文書画像を取得してもよい。

［２−７］機能構成
情報抽出支援システム１において図４に表す機能を実現する方法は実施例で述べた方法に限らない。例えば、文書処理装置１０は、１つの筐体内に全ての構成要素を備えていてもよいし、クラウドサービスで提供されるコンピュータリソースのように２以上の筐体内に分散した構成要素を備えていてもよい。

また、画像取得部１０１、文字認識部１０２、結合部１０３及び情報抽出部１０４のうち１以上の機能が読取装置２０によって実現されてもよい。また、画像読取部２０１及び情報表示部２０２のうち１以上の機能が文書処理装置１０によって実現されてもよい。

また、例えば情報抽出部１０４は、実施例では指定情報を抽出する処理と除外語句を除外する処理の両方の処理を行ったが、それらの処理を別々の機能が行ってもよい。また、例えば結合部１０３及び情報抽出部１０４が行う動作を、１つの機能が行ってもよい。要するに、情報抽出支援システム全体として図４に表された機能が実現されていれば、各機能を実現する装置の構成と、各機能が行う動作の範囲とは自由に定められてよい。

［２−８］プロセッサ
上記各実施例において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばCPU：Central Processing Unit、等）や、専用のプロセッサ（例えばGPU：Graphics Processing Unit、ASIC：Application Specific Integrated Circuit、FPGA：Field Programmable Gate Array、プログラマブル論理デバイス、等）を含むものである。

また上記各実施例におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

［２−９］発明のカテゴリ
本発明は、文書処理装置１０及び読取装置２０という各情報処理装置の他、それらの情報処理装置を備える情報処理システム（情報抽出支援システム１がその一例）としても捉えられる。また、本発明は、各情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるし、各情報処理装置を制御するコンピュータを機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等の通信回線を介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。

１…情報抽出支援システム、１０…文書処理装置、２０…読取装置、１０１…画像取得部、１０２…文字認識部、１０３…結合部、１０４…情報抽出部、２０１…画像読取部、２０２…情報表示部。

Claims

プロセッサを備え、
前記プロセッサは、
文書を表す画像を取得し、
取得した前記画像から文字を認識し、
認識した前記文字の並びで表される文章の改行された部分を繋げた結合文字列を生成し、
生成した前記結合文字列から指定された情報を表している部分を抽出する
情報処理装置。
前記プロセッサが、取得した前記画像から定められた条件を満たす部分を消去してから文字を認識する
請求項１に記載の情報処理装置。
前記プロセッサが、取得した前記画像から特定の色の部分を前記条件を満たす部分として消去する
請求項２に記載の情報処理装置。
前記プロセッサが、取得した前記画像を変換した結果の画像に基づいて文字を認識する
請求項１に記載の情報処理装置。
前記プロセッサが、前記文章を分割して複数の前記結合文字列を生成し、複数の前記結合文字列について順次前記抽出を行い、定められた終了条件が満たされると前記抽出を終了する
請求項１に記載の情報処理装置。
前記プロセッサが、前記文章に含まれている特定の文字を境目として当該文章を分割する
請求項５に記載の情報処理装置。
前記プロセッサが、前記指定された情報の種類に応じた箇所で前記文章を分割する
請求項５に記載の情報処理装置。
前記プロセッサが、前記文書の種類に応じた箇所で前記文章を分割する
請求項５に記載の情報処理装置。
前記プロセッサが、取得した前記文書を表す画像が当該文書の複数の頁数分の大きさである場合、当該画像を前記複数の頁数分に分割してから文字を認識する
請求項１から８のいずれか１項に記載の情報処理装置。
前記プロセッサが、前記結合文字列に複数の第１文字列のうちのいずれかが含まれている場合、含まれている前記第１文字列に対応付けられた規則で配置された第２文字列を前記部分として抽出する
請求項１から９のいずれか１項に記載の情報処理装置。
前記プロセッサが、抽出した前記部分から定められた語句を除外する
請求項１から１０のいずれか１項に記載の情報処理装置。
前記定められた語句は、前記文書に登場する人物の特定の呼称を示す語句である
請求項１１に記載の情報処理装置。
前記プロセッサが、生成した前記結合文字列から特定の品詞の語句を前記部分として抽出する
請求項１から１２のいずれか１項に記載の情報処理装置。
前記品詞は、固有名詞である
請求項１３に記載の情報処理装置。