JP2021157627A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2021157627A
JP2021157627A JP2020058736A JP2020058736A JP2021157627A JP 2021157627 A JP2021157627 A JP 2021157627A JP 2020058736 A JP2020058736 A JP 2020058736A JP 2020058736 A JP2020058736 A JP 2020058736A JP 2021157627 A JP2021157627 A JP 2021157627A
Authority
JP
Japan
Prior art keywords
information
character string
document
information processing
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020058736A
Other languages
English (en)
Inventor
周作 久保
Shusaku Kubo
周作 久保
邦彦 小林
Kunihiko Kobayashi
邦彦 小林
茂 岡田
Shigeru Okada
茂 岡田
裕介 鈴木
Yusuke Suzuki
裕介 鈴木
真太郎 安達
Shintaro Adachi
真太郎 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Priority to JP2020058736A priority Critical patent/JP2021157627A/ja
Priority to US16/931,353 priority patent/US20210303790A1/en
Priority to CN202010903990.5A priority patent/CN113449731A/zh
Publication of JP2021157627A publication Critical patent/JP2021157627A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

【課題】文章の一部として登場する情報を適切に抽出すること。【解決手段】画像取得部101は、送信されてきた画像データが示す文書画像を、締結された契約の文書を表す画像として取得する。文字認識部102は、取得された文書画像から文字を認識する。結合部103は、文字認識部102により認識された文字の並びで表される文章の改行された部分を繋げた文字列(以下「結合文字列」と言う)を生成する。情報抽出部104は、結合部103により生成された結合文字列から指定された情報を表している部分(以下「指定情報」と言う)を抽出する。情報抽出部104は、本実施例では、結合文字列に複数の第1文字列のうちのいずれかが含まれている場合、含まれている第1文字列に対応付けられた規則で配置された第2文字列を指定情報として抽出する。情報抽出部104は、抽出した指定情報から定められた語句を除外して、除外後に残された情報を指定情報として抽出する。【選択図】図4

Description

本発明は、情報処理装置に関する。
特許文献1には、文書における出現位置が所定の範囲にある文字フィールドを抽出して品詞パターンを照合することで文書属性を抽出する技術が記載されている。
特開2004−178044号公報
特許文献1の技術であれば名刺のように文字が表される範囲が決まっている文書から情報を抽出することができる。しかし、例えば契約書における契約者名のように文章の一部として登場する情報は、文書内で表される位置が決まっていないので抽出することが難しい。また、その情報が文章の途中で改行する箇所を跨っていると、さらに抽出が難しくなる。
そこで、本発明は、文章の一部として登場する情報を適切に抽出することを目的とする。
本発明の請求項1に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文書を表す画像を取得し、取得した前記画像から文字を認識し、認識した前記文字の並びで表される文章の改行された部分を繋げた結合文字列を生成し、生成した前記結合文字列から指定された情報を表している部分を抽出することを特徴とする。
本発明の請求項2に係る情報処理装置は、請求項1に記載の態様において、前記プロセッサが、取得した前記画像から定められた条件を満たす部分を消去してから文字を認識することを特徴とする。
本発明の請求項3に係る情報処理装置は、請求項2に記載の態様において、前記プロセッサが、取得した前記画像から特定の色の部分を前記条件を満たす部分として消去することを特徴とする。
本発明の請求項4に係る情報処理装置は、請求項1に記載の態様において、前記プロセッサが、取得した前記画像を変換した結果の画像に基づいて文字を認識することを特徴とする。
本発明の請求項5に係る情報処理装置は、請求項1に記載の態様において、前記プロセッサが、前記文章を分割して複数の前記結合文字列を生成し、複数の前記結合文字列について順次前記抽出を行い、定められた終了条件が満たされると前記抽出を終了することを特徴とする。
本発明の請求項6に係る情報処理装置は、請求項5に記載の態様において、前記プロセッサが、前記文章に含まれている特定の文字を境目として当該文章を分割することを特徴とする。
本発明の請求項7に係る情報処理装置は、請求項5に記載の態様において、前記プロセッサが、前記指定された情報の種類に応じた箇所で前記文章を分割することを特徴とする。
本発明の請求項8に係る情報処理装置は、請求項5に記載の態様において、前記プロセッサが、前記文書の種類に応じた箇所で前記文章を分割することを特徴とする。
本発明の請求項9に係る情報処理装置は、請求項1から8のいずれか1項に記載の態様において、前記プロセッサが、取得した前記文書を表す画像が当該文書の複数の頁数分の大きさである場合、当該画像を前記複数の頁数分に分割してから文字を認識することを特徴とする。
本発明の請求項10に係る情報処理装置は、請求項1から9のいずれか1項に記載の態様において、前記プロセッサが、前記結合文字列に複数の第1文字列のうちのいずれかが含まれている場合、含まれている前記第1文字列に対応付けられた規則で配置された第2文字列を前記部分として抽出することを特徴とする。
本発明の請求項11に係る情報処理装置は、請求項1から10のいずれか1項に記載の態様において、前記プロセッサが、抽出した前記部分から定められた語句を除外することを特徴とする。
本発明の請求項12に係る情報処理装置は、請求項11に記載の態様において、前記定められた語句は、前記文書に登場する人物の特定の呼称を示す語句であることを特徴とする。
本発明の請求項13に係る情報処理装置は、請求項1から12のいずれか1項に記載の態様において、前記プロセッサが、生成した前記結合文字列から特定の品詞の語句を前記部分として抽出することを特徴とする。
本発明の請求項14に係る情報処理装置は、請求項13に記載の態様において、前記品詞は、固有名詞であることを特徴とする。
請求項1に係る発明によれば、文章の一部として登場する情報を適切に抽出することができる。
請求項2に係る発明によれば、本発明の消去を行わない場合に比べて、指定情報の抽出の精度を悪化させるということを抑制することができる。
請求項3に係る発明によれば、本発明の消去を行わない場合に比べて、特定の色の部分が文字として認識されることによる指定情報の抽出の精度を悪化を抑制することができる。
請求項4に係る発明によれば、画像変換の技術を利用して文字を認識することができる。
請求項5に係る発明によれば、文書を分割しない場合に比べて、情報抽出の処理の負荷を軽減することができる。
請求項6に係る発明によれば、無作為に文章を分割する場合に比べて、分断された文字列が抽出されないという事態を生じにくくすることができる。
請求項7に係る発明によれば、文書の冒頭部分で文書を分割しない場合に比べて、指定された情報の抽出の処理の負荷をより確実に軽減することができる。
請求項8に係る発明によれば、本発明の分割が行われない場合に比べて、指定された情報の抽出の処理の負荷をより確実に軽減することができる。
請求項9に係る発明によれば、行毎又は列毎に頁をまたいで文が続いているという誤認識を防ぐことができる。
請求項10に係る発明によれば、特定の文字列(第1文字列)と配置が特定の関係になる文字列(第2文字列)を抽出することができる。
請求項11、12に係る発明によれば、語句の除外を行わない場合に比べて、より精度の高い情報の部分を抽出することができる。
請求項13に係る発明によれば、本発明の抽出が行われない場合に比べて、特定の品詞の語句を適切に抽出することができる。
請求項14に係る発明によれば、本発明の抽出が行われない場合に比べて、固有名詞の語句を適切に抽出することができる。
実施例に係る情報抽出支援システムの全体構成を表す図 文書処理装置のハードウェア構成を表す図 読取装置のハードウェア構成を表す図 情報抽出支援システムにおいて実現される機能構成を表す図 文章の改行された部分の一例を表す図 生成された結合文字列の一例を表す図 文字列テーブルの一例を表す図 指定情報の抽出の一例を表す図 指定情報の抽出に関する画面の一例を表す図 抽出処理における動作手順の一例を表す図
[1]実施例
図1は実施例に係る情報抽出支援システム1の全体構成を表す。情報抽出支援システム1は、指定された情報を文書から抽出するための処理を行うシステムである。文書とは、文字によって内容が書き記された媒体である。ここでいう媒体には、本のような有体物だけでなく、電子書籍のような無体物も含まれる。
文書に用いられる文字には、漢字、平仮名、片仮名、アルファベット及び符号(句読点など)等が含まれる。文章とは、複数の文で表現されたものであり、文とは、終わりに句点(=「。」)が配置された文字列である。本実施例では、文書の一例である契約書から、契約者名、商品名又はサービス名等の情報を抽出する場合を例に取って説明する。
情報抽出支援システム1は、通信回線2と、文書処理装置10と、読取装置20とを備える。通信回線2は、移動体通信網及びインターネット等を含む通信システムであり、自システムにアクセスする装置同士のデータのやり取りを中継する。通信回線2には、文書処理装置10及び読取装置20が有線通信でアクセスしている。なお、通信回線2へのアクセスは無線通信でもよい。
読取装置20は、文書を読み取り、その文書に表された文字等を示す画像データを生成する処理を行う情報処理装置である。読取装置20は、契約書の原本を文書として読み取った契約書画像データを生成する。文書処理装置10は、契約書の画像から契約の締結日を特定する処理を行う情報処理装置である。文書処理装置10は、読取装置20が生成した契約書画像データに基づいて契約の締結日を特定する。
図2は文書処理装置10のハードウェア構成を表す。文書処理装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信装置14と、UI装置15(UI=User Interface)とを備えるコンピュータである。プロセッサ11は、例えば、CPU(=Central Processing Unit)等の演算装置、レジスタ及び周辺回路等を有する。メモリ12は、プロセッサ11が読み取り可能な記録媒体であり、RAM(=Random Access Memory)及びROM(=Read Only Memory)等を有する。
ストレージ13は、プロセッサ11が読み取り可能な記録媒体であり、例えば、ハードディスクドライブ又はフラッシュメモリ等を有する。プロセッサ11は、RAMをワークエリアとして用いてROMやストレージ13に記憶されているプログラムを実行することで各ハードウェアの動作を制御する。通信装置14は、アンテナ及び通信回路等を有し、通信回線2を介した通信を行う通信手段である。
UI装置15は、自装置を利用するユーザに対して提供されるインターフェースである。UI装置15は、例えば、表示手段であるディスプレイと、ディスプレイの表面に設けられたタッチパネルとを有するタッチスクリーンを有し、画像を表示すると共に、ユーザからの操作を受け付ける。また、UI装置15は、タッチスクリーン以外にも、キーボード等の操作子を有し、それらの操作子への操作を受け付ける。
図3は読取装置20のハードウェア構成を表す。読取装置20は、プロセッサ21と、メモリ22と、ストレージ23と、通信装置24と、UI装置25と、画像読取装置26とを備えるコンピュータである。プロセッサ21からUI装置25までは、図2に表すプロセッサ11からUI装置15までと同種のハードウェアである。
画像読取装置26は、文書を読み取りその文書に表された文字等(文字、記号、絵及び図柄等)を示す画像データを生成する装置であり、いわゆるスキャナである。画像読取装置26は、文書に表された文字等が色彩を有する場合には、その色彩も読み取るカラースキャン機能を有する。
情報抽出支援システム1においては、上記の各装置のプロセッサがプログラムを実行して各部を制御することで、以下に述べる各機能が実現される。各機能が行う動作は、その機能を実現する装置のプロセッサが行う動作としても表される。
図4は情報抽出支援システム1において実現される機能構成を表す。文書処理装置10は、画像取得部101と、文字認識部102と、結合部103と、情報抽出部104とを備える。読取装置20は、画像読取部201と、情報表示部202とを備える。
読取装置20の画像読取部201は、画像読取装置26を制御して、文書に表された文字等を読み取り、その文書を表す画像(以下「文書画像」と言う)を生成する。ユーザが契約書の原本を1枚ずつめくりながら画像読取装置26にセットして読み取りの操作を行うと、画像読取部201が、読み取りの操作の度に文書画像を生成する。
画像読取部201は、生成した文書画像を示す画像データを文書処理装置10に送信する。文書処理装置10の画像取得部101は、送信されてきた画像データが示す文書画像を、締結された契約の文書を表す画像として取得する。画像取得部101は、取得した文書画像を文字認識部102に供給する。文字認識部102は、供給された文書画像から文字を認識する。
文字認識部102は、例えば周知のOCR(Optical Character Recognition)技術を用いて文字を認識する。文字認識部102は、まず、文書画像に対して文字が並べられた領域を特定するレイアウト解析を行い、横書きの場合は文字が並べられた行を1行ずつ特定し、縦書きの場合文字が並べられた列を1列ずつ特定する。文字認識部102は、さらに各行又は各列に表されている文字と文字の隙間の空白の領域を認識することで文字を含む矩形の画像を1文字ずつ切り出す処理を行う。
その際、文字認識部102は、切り出した文字(後ほど認識することになる文字)の画像内での位置も算出する。文字認識部102は、例えば、文書画像の左上角を原点とした2次元座標系の座標で表す位置を文字の位置として算出する。文字の位置は、例えば切り出された矩形の画像の中心の画素の位置で表される。文字認識部102は、切り出した矩形の画像に含まれる文字に対して正規化、特徴量抽出、マッチング及び知識処理等の処理を行って認識する。
正規化とは、文字のサイズ及び形を一定にする処理である。特徴量抽出とは、文字の特徴を表す量を抽出する処理である。マッチングとは、標準的な文字の特徴量を記憶しておき、抽出された特徴量と最も類似する特徴量の文字を特定する処理である。知識処理とは、日本語の単語情報を記憶しておき、認識した文字が示す単語が記憶されていない場合に記憶されている似通った単語に訂正する処理である。
文字認識部102は、認識した文字とその文字について算出した位置と文字が並ぶ方向(行を特定した場合は横方向、列を特定した場合は縦方向)とを示す文字データを結合部103に供給する。結合部103は、文字認識部102により認識された文字の並びで表される文章の改行された部分を繋げた文字列(以下「結合文字列」と言う)を生成する。
ここでいう改行とは、行の途中で文が終了して次の行に移ることを言う。なお、文章が横書きの場合は文字の並びを「行」と言うが、縦書きの場合、すなわち文字が縦に並んで列となっている場合でも、列の途中で文が終了して次の列に移ることを「改行」と言うものとする。また、改行には、文章の作成者が明示的に行う改行だけでなく、文書作成アプリが自動的に行う文字列の折り返し(段落内改行とも言う)も含まれる。
図5は文章の改行された部分の一例を表す。図5では、表題A1と、段落A2、A3、A4、A5が表された文書画像D1が表されている。表題A1から段落A5までは、いずれも冒頭から最後に明示的な改行がされるまで文字が並んでいる。結合部103は、文字認識部102から供給された文字データが示す文字の位置及び文字が並ぶ方向から文章を形成する文字の並びを特定する。
結合部103は、文書画像D1の場合、本実施例では、表題A1から段落A5までの文字の並びを特定する。この場合、結合部103は、前述した段落内改行については改行前の行の文字列と改行後の行の文字列とを結合している。次に、結合部103は、特定した文字の並びの順番を決定する。結合部103は、例えば、文書画像D1の場合、文書画像の左辺C1からの距離と上辺C2からの距離に基づいて文字の並びの順番を決定する。
具体的には、結合部103は、左辺C1からの距離が上辺C2の長さの半分未満である文字の並びの順番を、左辺C1からの距離が上辺C2の長さの半分以上である文字の並びの順番よりも先にする。また、結合部103は、左辺C1からの距離が上辺C2の長さの半分未満である文字の並びのうち上辺C2からの距離が短いほど順番を先にし、左辺C1からの距離が上辺C2の長さの半分以上である文字の並びのうち上辺C2からの距離が短いほど順番を先にする。
図5の例では、結合部103は、表題A1が最初で、段落A2、A3、A4が続き、最後が段落A5という順番を決定する。結合部103は、特定した文字の並びを、決定した順番で並べて結合した文字列を結合文字列として生成する。こうして生成された結合文字列は、文章の改行された部分を繋げた文字列となる。なお、結合部103は、上記例では段落内改行について予め結合した文字の並びを特定したが、段落内改行を予め結合せず、1行毎に文字の並びを特定してもよい。その場合でも、結合部103は、各行の文字の並びの順番を同様の方法で決定し、結合文字列を生成する。
図6は生成された結合文字列の一例を表す。図6の例では、結合部103は、表題A1、段落A2、段落A3、段落A4、段落A5を順番に結合した結合文字列B1を生成している。結合文字列B1は、文書画像D1に表された文章の改行された部分を繋げた形になっている。結合部103は、生成した結合文字列を示す文字列データを情報抽出部104に供給する。
情報抽出部104は、結合部103により生成された結合文字列から指定された情報を表している部分(以下「指定情報」と言う)を抽出する。情報抽出部104は、本実施例では、結合文字列に複数の第1文字列のうちのいずれかが含まれている場合、含まれている第1文字列に対応付けられた規則で配置された第2文字列を指定情報として抽出する。
また、情報抽出部104は、上記の方法で抽出した指定情報から定められた語句を除外して、除外後に残された情報を指定情報として抽出する。情報抽出部104は、第1文字列、第2文字列及び除外語句(=除外するものとして定められた語句)を対応付けた文字列テーブルを用いて指定情報を抽出する。
図7は文字列テーブルの一例を表す。図7の例では、「(以下、甲という)」、「(以下甲という)」、「(以下「甲」という)」、「(以下、「甲」という)」、「(以下、「甲」という。)」、「(以下、乙という)」、「(以下乙という)」、「(以下「乙」という)」、「(以下、「乙」という)」、「(以下、「乙」という。)」という第1文字列に、「契約者名」という第2文字列が対応付けられている。
また、「契約者名」という第2文字列には、「発注者/受注者/買い主/売り主/買主/売主/本日/買受人/売渡人/である」という除外語句が対応付けられている。この文字列テーブルを用いた指定情報の抽出例について図8を参照して説明する。
図8は指定情報の抽出の一例を表す。図8(a)では、「売り主 ABCD株式会社(以下甲という)と、買い主 EFG産業株式会社(以下乙という)とは・・。」という結合文字列B2が表されている。
情報抽出部104は、結合部103から供給された文字列データが示す結合文字列から、第1文字列と一致する文字列を検索する。情報抽出部104は、図8の例であれば、図8(b)に表すように「(以下甲という)」という文字列F1と、「(以下乙という)」という文字列F2とを検索する。情報抽出部104は、検索された文字列の前に配置されている文字列を取得する。
なお、情報抽出部104は、検索された文字列の前に他の検索された文字列がある場合は、その文字列の直後の文字から取得する。また、情報抽出部104は、検索された文字列の前に読点(「、」)がある場合は、その読点の直後の文字から取得する。情報抽出部104は、図8の例であれば、図8(b)に表すように文字列F1の前の「売り主 ABCD株式会社」という文字列G1を取得する。
また、情報抽出部104は、文字列F2の前には文字列F1もあるが、その前に読点があるので、読点の直後の文字から文字列F2の直前の文字までの「買い主 EFG産業株式会社」という文字列G2を取得する。そして、情報抽出部104は、取得した文字列G1及びG2から除外語句を除外する。情報抽出部104は、例えば文字列G1であれば、図8(c)に表すように「売り主」という除外語句を除外した「ABCD株式会社」という文字列H1を抽出する。
また、情報抽出部104は、文字列G2であれば、図8(c)に表すように「買い主」という除外語句を除外した「EFG産業株式会社」という文字列H2を抽出する。このように、本実施例では、除外語句には、文書に登場する人物の特定の呼称を示す語句が含まれる。本実施例における「登場する人物」は契約者本人であり、「特定の呼称を示す語句」は「発注者/受注者/買い主/売り主/買主/売主/買受人/売渡人」である。発注者等は、契約者本人のことを別の言い方で表した語句である。
情報抽出部104は、以上のとおり抽出した指定情報を示す指定情報データを読取装置20に送信する。読取装置20の情報表示部202は、情報抽出部104により抽出された指定情報を表示する。情報表示部202は、例えば、指定情報の抽出に関する画面を表示する。
図9は指定情報の抽出に関する画面の一例を表す。図9(a)の例では、情報表示部202は、情報抽出画面として、指定情報を抽出する対象となる文書を指定する文書指定欄E1と、抽出したい情報を指定する情報指定欄E2と、抽出の開始ボタンE3とを表示している。情報表示部202は、開始ボタンE3を押す操作が行われると、文書指定欄E1及び情報指定欄E2にて指定された文書及び指定情報を示す抽出要求データを文書処理装置10に送信する。
文書処理装置10の情報抽出部104は、抽出要求データを受信すると、抽出要求データが示す文書の結合文字列から同じく抽出要求データが示す指定情報を抽出し、抽出した指定情報を示す指定情報データを読取装置20に送信する。情報表示部202は、図9(b)に表すように、受信した指定情報データが示す指定情報を抽出結果として表示する。
情報抽出支援システム1が備える各装置は、上記の構成により、指定情報を抽出する抽出処理を行う。
図10は抽出処理における動作手順の一例を表す。まず、読取装置20(画像読取部201)は、文書としてセットされた契約書に表された文字等を読み取り、文書画像を生成する(ステップS11)。次に、読取装置20(画像読取部201)は、生成した文書画像を示す画像データを文書処理装置10に送信する(ステップS12)。
文書処理装置10(画像取得部101)は、送信されてきた画像データが示す文書画像を取得する(ステップS13)。次に、文書処理装置10(文字認識部102)は、取得された文書画像から文字を認識する(ステップS14)。続いて、文書処理装置10(結合部103)は、ステップS14で認識された文字の並びで表される文章の改行された部分を繋げた結合文字列を生成する(ステップS15)。
次に、文書処理装置10(情報抽出部104)は、ステップS15で生成された結合文字列から指定された情報を表している部分である指定情報を抽出する(ステップS16)。続いて、文書処理装置10(情報抽出部104)は、ステップS16において抽出された指定情報を示す指定情報データを読取装置20に送信する(ステップS17)。読取装置20(情報表示部202)は、送信されてきた指定情報データが示す指定情報を表示する(ステップS18)。
以上のとおり、本実施例では、結合文字列が生成されて指定情報が抽出される。文書に表された文字列は、例えば段落内改行を跨る位置に記載されると、途中で分断された2つの文字列になる。例えば鵜8に表す「ABCD株式会社」が段落内改行によって「ABC」と「D株式会社」に分断されていると、「ABCD株式会社」という契約者名という指定情報が抽出されなくなる。
本実施例では、結合文字列を生成することでこのような分断が生じないようになるので、結合文字列を生成しない場合に比べて、文章の一部として登場する情報が指定情報として適切に抽出されることになる。また、本実施例では、第1文字列に対応付けられた規則で配置された第2文字列が抽出される。これにより、特定の文字列(第1文字列)と配置が特定の関係になる文字列(第2文字列)が抽出されることになる。
また、本実施例では、除外語句が除外される。これにより、語句の除外を行わない場合に比べて、より精度の高い指定情報が抽出される。
[2]変形例
上述した実施例は本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施例及び各変形例は、必要に応じて組み合わせて実施してもよい。
[2−1]情報の抽出方法
情報抽出部104は、実施例と異なる方法で指定情報を抽出してもよい。情報抽出部104は、例えば、結合部103により生成された結合文字列から特定の品詞の語句を指定情報として抽出してもよい。特定の品詞とは、例えば固有名詞である。指定情報を抽出する対象の文書が契約書であれば、例えば「会社名」、「製品名」及び「サービス名」等が固有名詞として登場する。
情報抽出部104は、例えば文書に登場する可能性がある固有名詞のリストを記憶しておき、リストに含まれる各固有名詞を結合文字列から検索する。情報抽出部104は、検索により見つかった固有名詞がある場合には、その固有名詞を指定情報として抽出する。これにより、本変形例の抽出が行われない場合に比べて、特定の品詞の語句(上記の例では固有名詞の語句)が適切に抽出されることになる。
[2−2]文章の分割
実施例では、1つの文書について1つの結合文字列が生成されたが、1つの文書について複数の結合文字列が生成されてもよい。本変形例では、結合部103は、文書に表されている文章を分割して複数の結合文字列を生成する。結合部103は、例えば、文章に含まれている特定の文字を境目として文章を分割する。
そして、情報抽出部104は、複数の結合文字列について順次指定情報の抽出を行い、定められた終了条件が満たされると指定情報の抽出を終了する。特定の文字とは、例えば、「:」(=コロン)、「第〇章」(「○」には数字が入る)又は「後ろが空白の文字」等である。これらの文字は、いずれも文章の切れ目を表している。そのため、これらの文字の前後では文が完結しているため、これらの文字を跨いで文字列が分断されることがほとんどない。
そのため、分割された結合文字列から指定情報が抽出される場合には、例えば無作為に文章を分割する場合に比べて、分断された文字列が抽出されないという事態が生じにくい。情報抽出部104は、例えば、必要な指定情報が少なくとも1つ抽出された場合に満たされる条件を終了条件として用いてもよい。
例えば契約書から「契約者名」及び「商品名」を抽出する場合であれば、情報抽出部104は、少なくとも1つの「契約者名」と少なくとも1つの「商品名」が分割された結合文字列から抽出されたときに、終了条件が満たされたと判断して指定情報の抽出を終了する。この場合、複数の分割された結合文字列の中には、指定情報の抽出処理が行われないものが生じうる。そのため、文書を分割しない場合に比べて、指定情報の抽出の処理の負荷が軽減されることになる。
なお、結合文字列の分割方法は上記方法に限らない。結合部103は、例えば、指定情報の種類に応じた箇所で文章を分割してもよい。結合部103は、例えば、指定情報の種類が「契約者名」であれば、文書の冒頭部分(例えば文量が最初の1割に当たる部分など)とそれ以降の部分とを分割した結合文字列を生成する。文書の冒頭部分に契約者名が登場する可能性は他の部分に比べて高いので、文書の冒頭部分で文書を分割しない場合に比べて、指定情報の抽出の処理の負荷がより確実に軽減されることになる。
なお、結合部103は、指定情報の種類が「契約者捺印」であれば、文書の終盤部分(例えば文量が最後の1割に当たる部分など)とそれ以前の部分とを分割した結合文字列を生成する。この場合、情報抽出部104は、複数の結合文字列のうち指定情報の種類に応じた位置(「契約者捺印」の例であれば文章の終盤の位置)に配置された、分割された結合文字列から順次指定情報の抽出を行ってもよい。これにより、分割された結合文字列を一律に文章に登場する順番で指定情報の抽出を行う場合に比べて、指定情報の抽出の処理の負荷がより確実に軽減されることになる。
また、結合部103は、指定情報の抽出対象である文書の種類に応じた箇所で文章を分割してもよい。結合部103は、例えば、文書の種類が「契約書」であれば、文書の冒頭からの文量の割合が1:8:1となるように結合文字列を分割する。また、結合部103は、文書の種類が「提案書」であれば、文書の冒頭からの文量の割合が1:4:4:1となるように結合文字列を分割する。
この場合、情報抽出部104は、複数の結合文字列のうち文書の種類に応じた位置に配置された、分割された結合文字列から順次指定情報の抽出を行う。例えば文書の種類が契約書であれば、情報抽出部104は、1:8:1に分割した結合文字列のうち、最初の結合文字列、最後の結合文字列、真ん中の結合文字列の順番で指定情報の抽出を行う。
また、文書の種類が提案書であれば、情報抽出部104は、1:4:4:1に分割した結合文字列のうち、最初の結合文字列、最後の結合文字列、2番目の結合文字列、3番目の結合文字列の順番で指定情報の抽出を行う。契約書の場合、指定情報になりやすい「契約者名」、「商品名」及び「サービス名」等は文書の冒頭に登場しやすい。また、同じく指定情報になりやすい「契約者捺印」は文書の終盤に登場しやすい。
また、提案書の場合、指定情報になりやすい「顧客名」、「提案会社名」、「商品名」及び「サービス名」等は文書の冒頭又は終盤に登場しやすい。このように、指定情報が登場しやすい位置の結合文字列から順番に抽出の処理が行われることで、分割された結合文字列を一律に文章に登場する順番で指定情報の抽出を行う場合に比べて、指定情報の抽出の処理の負荷がより確実に軽減されることになる。
[2−3]画像の分割
例えば見開き頁を読み取った文書画像の場合、1枚の画像に2頁分が含まれることがある。また、4アップ又は8アップ等のレイアウトで作成された文書画像の場合、1枚の画像に3頁以上の頁が含まれることがある。そのように画像取得部101により取得された文書画像がその文書の複数の頁数分の大きさである場合、文字認識部102は、その文書画像をそれら複数の頁数分に分割してから文字を認識する。
文書画像は通常長方形の画像である。文字認識部102は、例えば、取得された文書画像の向かい合う辺に挟まれ且つ文書画像の角を含まない長方形の領域のうち、認識された文字が存在せず且つ幅が最大になる領域(以下「非文字領域」と言う)のその幅が閾値以上であるものによって仕切られた領域の数を1枚の画像に含まれる頁の頁数と判断する。
ここでいう「幅」とは、一方の辺から他方の辺に向かう方向に直交する方向の寸法のことである。文字認識部102は、この判断を行うと、例えば、各非文字領域の幅方向の中心を通る線で文書画像を分割し、新たな文書画像を分割画像として生成する。文字認識部102は、生成した各分割画像に対して、実施例と同様に文字の認識を行う。
1枚の画像に2頁以上の頁が含まれている場合、文字の大きさ及び間隔によっては例えば左側の頁の行の続きが1つ下の行ではなく右側の頁の行になっていると間違えるおそれがある。また、縦書きの文書であれば、上の頁の列の続きが1つ左側の列ではなくて下の頁の列になっていると間違えるおそれがある。本変形例では、頁毎に画像を分割するので、行毎又は列毎に頁をまたいで文が続いているという誤認識が防がれる。
[2−4]不要部分の消去
文字認識部102は、画像取得部101により取得された文書画像のうち定められた条件(以下「消去条件」と言う)を満たす部分を消去してから文字を認識してもよい。消去条件を満たす部分は、文字の認識に不要な部分であり、以下では「不要部分」とも言う。
具体的には、文字認識部102は、取得された文書画像のうち特定の色の部分を前記条件を満たす部分として消去する。特定の色とは、例えば、印鑑に用いられる赤い色である。その場合、不要部分を消去しない場合に比べて、文書に含まれる印鑑の文字を含む文章の文字列が認識されて指定情報の抽出の精度を悪化させるということが抑制される。
なお、文字認識部102は、取得された文書画像から、認識された文字を含む文字領域を除く部分を不要部分として消去してもよい。文字認識部102は、例えば、認識した文字の塊を囲む最小の四角形を文字領域として特定する。そして、文字認識部102は、特定した文字領域を除く部分を不要部分として消去する。文字認識部102は、不要部分を消去したあとに、実施例と同様に契約の文字を認識する。
例えば契約書を読み取った文書画像には、頁の折り目の影及び製本テープの影等が含まれる場合がある。読取領域にそれらの影等が含まれていて且つそれらの影等が誤って文字と認識されると、指定情報の抽出の精度を悪化させる可能性がある。本変形例では、上記の消去処理が行われることで、それらの影等の影響が除去され、その消去処理が行われない場合に比べて、指定情報の抽出の精度を悪化させるということが抑制される。
[2−5]不要部分の変換
文字認識部102は、文書画像のうち不要部分を消去したが、代わりに不要部分を含まない画像に変換することで、結果的に不要部分が消去された状態にしてもよい。画像の変換には、例えば、GAN(Genera tive Adversarial Networks:敵対的生成ネットワーク)と呼ばれる機械学習が用いられてもよい。
GANとは、2つのネットワーク(生成器と識別器)を競わせながら学習させるアーキテクチャであり、画像生成の手法としてよく用いられている。生成器は、ランダムなノイズ画像から偽物の画像を生成する。識別器は、生成された画像が教師データに含まれる「本物」か否かを判定する。
文字認識部102は、例えば、GANにより捺印のない契約書の画像を生成し、生成した画像に基づき実施例と同様に文字を認識する。このように、文字認識部102は、本変形例では、取得された文書画像を変換した結果の画像に基づき文字を認識する。これにより、画像変換の技術を利用して指定情報の抽出の精度を悪化させるということが抑制される。
[2−6]文書画像
画像取得部101は、実施例では、契約書の原本を読み取って生成された文書画像を取得したが、これに限らず、例えば電子契約を行うシステムにおいて電子的に作成された契約書データが示す文書画像を取得してもよい。画像取得部101は、同様に、文書の種類によらず電子的に作成された文書データが示す文書画像を取得してもよい。
[2−7]機能構成
情報抽出支援システム1において図4に表す機能を実現する方法は実施例で述べた方法に限らない。例えば、文書処理装置10は、1つの筐体内に全ての構成要素を備えていてもよいし、クラウドサービスで提供されるコンピュータリソースのように2以上の筐体内に分散した構成要素を備えていてもよい。
また、画像取得部101、文字認識部102、結合部103及び情報抽出部104のうち1以上の機能が読取装置20によって実現されてもよい。また、画像読取部201及び情報表示部202のうち1以上の機能が文書処理装置10によって実現されてもよい。
また、例えば情報抽出部104は、実施例では指定情報を抽出する処理と除外語句を除外する処理の両方の処理を行ったが、それらの処理を別々の機能が行ってもよい。また、例えば結合部103及び情報抽出部104が行う動作を、1つの機能が行ってもよい。要するに、情報抽出支援システム全体として図4に表された機能が実現されていれば、各機能を実現する装置の構成と、各機能が行う動作の範囲とは自由に定められてよい。
[2−8]プロセッサ
上記各実施例において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
また上記各実施例におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
[2−9]発明のカテゴリ
本発明は、文書処理装置10及び読取装置20という各情報処理装置の他、それらの情報処理装置を備える情報処理システム(情報抽出支援システム1がその一例)としても捉えられる。また、本発明は、各情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるし、各情報処理装置を制御するコンピュータを機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等の通信回線を介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。
1…情報抽出支援システム、10…文書処理装置、20…読取装置、101…画像取得部、102…文字認識部、103…結合部、104…情報抽出部、201…画像読取部、202…情報表示部。

Claims (14)

  1. プロセッサを備え、
    前記プロセッサは、
    文書を表す画像を取得し、
    取得した前記画像から文字を認識し、
    認識した前記文字の並びで表される文章の改行された部分を繋げた結合文字列を生成し、
    生成した前記結合文字列から指定された情報を表している部分を抽出する
    情報処理装置。
  2. 前記プロセッサが、取得した前記画像から定められた条件を満たす部分を消去してから文字を認識する
    請求項1に記載の情報処理装置。
  3. 前記プロセッサが、取得した前記画像から特定の色の部分を前記条件を満たす部分として消去する
    請求項2に記載の情報処理装置。
  4. 前記プロセッサが、取得した前記画像を変換した結果の画像に基づいて文字を認識する
    請求項1に記載の情報処理装置。
  5. 前記プロセッサが、前記文章を分割して複数の前記結合文字列を生成し、複数の前記結合文字列について順次前記抽出を行い、定められた終了条件が満たされると前記抽出を終了する
    請求項1に記載の情報処理装置。
  6. 前記プロセッサが、前記文章に含まれている特定の文字を境目として当該文章を分割する
    請求項5に記載の情報処理装置。
  7. 前記プロセッサが、前記指定された情報の種類に応じた箇所で前記文章を分割する
    請求項5に記載の情報処理装置。
  8. 前記プロセッサが、前記文書の種類に応じた箇所で前記文章を分割する
    請求項5に記載の情報処理装置。
  9. 前記プロセッサが、取得した前記文書を表す画像が当該文書の複数の頁数分の大きさである場合、当該画像を前記複数の頁数分に分割してから文字を認識する
    請求項1から8のいずれか1項に記載の情報処理装置。
  10. 前記プロセッサが、前記結合文字列に複数の第1文字列のうちのいずれかが含まれている場合、含まれている前記第1文字列に対応付けられた規則で配置された第2文字列を前記部分として抽出する
    請求項1から9のいずれか1項に記載の情報処理装置。
  11. 前記プロセッサが、抽出した前記部分から定められた語句を除外する
    請求項1から10のいずれか1項に記載の情報処理装置。
  12. 前記定められた語句は、前記文書に登場する人物の特定の呼称を示す語句である
    請求項11に記載の情報処理装置。
  13. 前記プロセッサが、生成した前記結合文字列から特定の品詞の語句を前記部分として抽出する
    請求項1から12のいずれか1項に記載の情報処理装置。
  14. 前記品詞は、固有名詞である
    請求項13に記載の情報処理装置。
JP2020058736A 2020-03-27 2020-03-27 情報処理装置 Pending JP2021157627A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020058736A JP2021157627A (ja) 2020-03-27 2020-03-27 情報処理装置
US16/931,353 US20210303790A1 (en) 2020-03-27 2020-07-16 Information processing apparatus
CN202010903990.5A CN113449731A (zh) 2020-03-27 2020-09-01 信息处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020058736A JP2021157627A (ja) 2020-03-27 2020-03-27 情報処理装置

Publications (1)

Publication Number Publication Date
JP2021157627A true JP2021157627A (ja) 2021-10-07

Family

ID=77808497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020058736A Pending JP2021157627A (ja) 2020-03-27 2020-03-27 情報処理装置

Country Status (3)

Country Link
US (1) US20210303790A1 (ja)
JP (1) JP2021157627A (ja)
CN (1) CN113449731A (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232493T2 (de) * 1991-10-21 2003-01-09 Canon Kk Verfahren und Gerät zur Zeichenerkennung
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
WO2004053724A1 (ja) * 2002-12-06 2004-06-24 Sharp Kabushiki Kaisha データ変換装置、データ変換方法、および、データ変換プログラムを記録した記録媒体
US8620083B2 (en) * 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
JP5998686B2 (ja) * 2012-07-09 2016-09-28 富士ゼロックス株式会社 情報処理装置及びプログラム
EP2915068A4 (en) * 2012-11-02 2016-08-03 Fido Labs Inc METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING
JP6265178B2 (ja) * 2015-07-30 2018-01-24 京セラドキュメントソリューションズ株式会社 画像処理装置、画像処理方法
US10127247B1 (en) * 2017-09-11 2018-11-13 American Express Travel Related Services Company, Inc. Linking digital images with related records
KR101985612B1 (ko) * 2018-01-16 2019-06-03 김학선 종이문서의 디지털화 방법

Also Published As

Publication number Publication date
US20210303790A1 (en) 2021-09-30
CN113449731A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
WO2008088938A1 (en) Converting text
US20090324080A1 (en) Image processing device, image processing method and storage medium
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2006065477A (ja) 文字認識装置
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
JP2013152564A (ja) 文書処理装置及び文書処理方法
JP2021157627A (ja) 情報処理装置
JP2010211470A (ja) 文書データ生成装置と文書データ生成方法
JP7383882B2 (ja) 情報処理装置、及び情報処理プログラム
US20210182477A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
JP4517822B2 (ja) 画像処理装置及びプログラム
KR101935926B1 (ko) 웹툰 편집 서버 및 그 방법
CN113111881A (zh) 信息处理装置及记录媒体
US20210303843A1 (en) Information processing apparatus
JP6561876B2 (ja) 情報処理装置及びプログラム
US20130104014A1 (en) Viewer unit, server unit, display control method, digital comic editing method and non-transitory computer-readable medium
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method
JP7370733B2 (ja) 情報処理装置、制御方法、及びプログラム
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
JP6489041B2 (ja) 情報処理装置及びプログラム
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240123