JP2022095391A

JP2022095391A - 情報処理装置、及び情報処理プログラム

Info

Publication number: JP2022095391A
Application number: JP2020208692A
Authority: JP
Inventors: 大祐辰巳; Daisuke Tatsumi; 学植田; Manabu Ueda; 茜阿部; Akane Abe; 惇安藤; Andojun
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-06-28
Also published as: US20220188543A1; US11756321B2

Abstract

【課題】本発明は、文字認識処理によるキー文字列が抽出できない場合、又は書類等にバリュー文字列に対応するキー文字列が含まれていない場合であっても、対応した文字列としてキー文字列、及びバリュー文字列を出力することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。【解決手段】第１の態様の情報処理装置は、プロセッサを有し、プロセッサは、文字列を含む対象画像に対する文字認識の実行結果を用いて、キーとして予め指定された文字列であるキー文字列、及びキー文字列に対応するバリューを示す文字列であるバリュー文字列が属する属性を示す情報である属性情報を取得し、属性情報を用いて、文字認識の実行結果から抽出したバリュー文字列に対応するキー文字列を取得し、取得したキー文字列、及び対応するバリュー文字列を出力する。【選択図】図２

Description

本発明は、情報処理装置、及び情報処理プログラムに関する。

特許文献１には、多種レイアウトが混在する帳票群を、帳票定義なしに、読取対象文字列の読み取りおよび当該文字列の属性の判定を行う帳票認識装置であって、前記帳票画像から文字列領域を検出する文字列検出部と、前記文字列領域の個々の文字を認識する文字列認識部と、帳票画像内の文字列に対し、当該文字列が項目名である確率を表す項目名尤度を計算する項目名尤度計算部と、帳票画像内の文字列に対し、当該文字列が表記辞書に登録された単語や文字列の文法表記ルールに一致する確率を表す項目値尤度を計算する項目値尤度計算部と、帳票画像内の文字列ペアに対し、当該文字列ペアの文字列の枠または文字列矩形に基づいて、当該文字列ペアの配置関係が項目名－項目値関係として妥当であるかを表す配置尤度を計算する配置尤度計算部と、前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名－項目値としての尤もらしさを表す評価値を計算する項目名－項目値関係評価値計算部と、前記項目名－項目値関係評価値計算部の出力する前記評価値により、帳票画像内での項目名－項目値関係の対応付けを決定する項目名－項目値関係決定部を有することを特徴とする技術が開示されている。

特許文献２には、帳票を処理する帳票処理装置のコンピュータを、画像読取装置で前記帳票を読み取らせて帳票画像を取得する画像読取手段、前記画像読取手段によって取得した帳票画像に文字認識処理を実行して文字列を認識する文字列認識手段、前記文字列認識手段によって認識された文字列のうち、同一行内に配置された文字列群から構成される同一行文字列群情報を取得する同一行文字列群情報取得手段、前記同一行文字列群情報取得手段によって取得された同一行文字列群情報毎に予め定められた特定文字列を含むか否かを判断する特定文字列判断手段、前記特定文字列判断手段によって前記特定文字列を含むと判断された同一行文字列群情報の近傍に、予め定められた特定画像が存在するか否かを判断する特定画像判断手段、前記特定画像判断手段によって前記特定画像が存在すると判断された場合、前記特定画像の前記近傍の同一行文字列群情報に含まれる項目文字列を前記帳票に記載された特定の内容項目として取得する内容項目取得手段、として機能させる技術が開示されている。

特許第５６２１１６９号公報特許第６６１６２６９号公報

書類等を読み取った画像に対して文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理を実行することによって、画像に含まれている文字列を抽出する技術がある。文字認識処理によって画像から文字列を抽出する場合において、キーとして予め指定された文字列（以下、「キー文字列」という。）に対応するバリューとなる文字列（以下、「バリュー文字列」という。）を抽出するキーバリュー抽出を行うことがある。

文字認識処理によるキーバリュー抽出は、文字認識の実行結果からバリュー文字列が抽出できた場合であっても、実行結果に誤認識等が含まれることによってキー文字列が抽出できない場合、又は書類等にバリュー文字列に対応するキー文字列が含まれていない場合、対応した文字列としてキー文字列、及びバリュー文字列を出力できない。

本発明は、文字認識処理によるキー文字列が抽出できない場合、又は書類等にバリュー文字列に対応するキー文字列が含まれていない場合であっても、対応した文字列としてキー文字列、及びバリュー文字列を出力することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。

第１の態様の情報処理装置は、プロセッサを有し、プロセッサは、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列、及びキー文字列に対応するバリューを示す文字列であるバリュー文字列が属する属性を示す情報である属性情報を取得し、属性情報を用いて、文字認識の実行結果から抽出したバリュー文字列に対応するキー文字列を取得し、取得したキー文字列、及び対応するバリュー文字列を出力する。

第２の態様の情報処理装置は、第１の態様に係る情報処理装置において、プロセッサは、文字列が属する属性を推定するための学習を行った推定モデルをさらに備え、推定モデルを用いて、対象画像に含まれる文字列の属性を推定する。

第３の態様の情報処理装置は、第２の態様に係る情報処理装置において、プロセッサは、推定モデルに、文字列と、文字列の属性と、を予め学習させ、文字認識の結果から抽出した文字列を用いて、属性を推定する。

第４の態様の情報処理装置は、第２の態様に係る情報処理装置において、プロセッサは、対象画像における文字列の位置を示す情報である位置情報をさらに取得し、推定モデルに、画像における文字列の位置と、文字列の属性と、を予め学習させ、文字認識の結果から抽出した文字列の位置を用いて、属性を推定する。

第５の態様の情報処理装置は、第４の態様に係る情報処理装置において、プロセッサは、推定モデルに、画像における文字列の位置として、画像における予め定められた箇所に位置するオブジェクトと、文字列と、の位置の関係を学習させ、対象画像に含まれるオブジェクトの位置と、対象画像における文字列の位置と、の関係から属性を推定する。

第６の態様の情報処理装置は、第１の態様から第５の態様の何れか１つの態様に係る情報処理装置において、プロセッサは、画像に含まれる文字列を検出するための学習を行った検出モデルをさらに備え、対象画像に対する文字認識の結果からキー文字列が抽出できなかった場合、検出モデルを用いて、キー文字列を抽出する。

第７の態様の情報処理装置は、第６の態様に係る情報処理装置において、プロセッサは、キー文字列、及びバリュー文字列の位置の関係を表す情報である位置関係情報をさらに取得し、検出モデルを用いて、位置関係情報と、文字認識の結果から抽出したバリュー文字列の位置と、により、キー文字列を検出する。

第８の態様の情報処理装置は、第１の態様から第７の態様の何れか１つの態様に係る情報処理装置において、プロセッサは、予め記憶されたバリュー文字列、又は過去に修正されたバリュー文字列を用いて、文字認識の結果から抽出したバリュー文字列を修正して出力する。

第９の態様の情報処理装置は、第８の態様に係る情報処理装置において、プロセッサは、予め記憶されたバリュー文字列、又は過去に修正されたバリュー文字列を学習した修正モデルを用いて、文字認識の結果から抽出したバリュー文字列を修正する。

第１０の態様の情報処理装置は、第１の態様から第９の態様の何れか１つの態様に係る情報処理装置において、プロセッサは、バリュー文字列に対応するキー文字列が抽出できない場合、属性情報をキー文字列に設定して、キー文字列、及び対応するバリュー文字列を出力する。

第１１の態様の情報処理装置は、第１の態様から第９の態様の何れか１つの態様に係る情報処理装置において、プロセッサは、キー文字列、及びバリュー文字列の位置の関係を表す情報である位置関係情報と、属性情報と、を関連付けた情報である関連情報をさらに取得し、バリュー文字列の属性を示す属性情報に対して、関連情報において関連付けられている位置関係情報と、文字認識の結果から抽出したバリュー文字列の位置と、により抽出したバリュー文字列に対応するキー文字列を取得する。

第１２の態様の情報処理プログラムは、コンピュータに、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列、及びキー文字列に対応するバリューを示す文字列であるバリュー文字列が属する属性を示す情報である属性情報を取得し、属性情報を用いて、文字認識の実行結果から抽出したバリュー文字列に対応するキー文字列を取得し、取得したキー文字列、及び対応するバリュー文字列を出力することを実行させる。

第１の態様の情報処理装置、及び第１２の態様の情報処理プログラムによれば、文字認識処理によるキー文字列が抽出できない場合、又は書類等にバリュー文字列に対応するキー文字列が含まれていない場合であっても、対応した文字列としてキー文字列、及びバリュー文字列を出力することができる。

第２の態様の情報処理装置によれば、学習を反映して、属性を推定できる。

第３の態様の情報処理装置によれば、抽出した文字列の内容から対象画像の属性、及び文字列の種類を推定できる。

第４の態様の情報処理装置によれば、抽出した文字列に不備が存在する場合であっても文字列の属性、及び種類を推定できる。

第５の態様の情報処理装置によれば、検索する方向が定められていない場合と比較して、属性、及び文字列の種類を推定する精度をより向上できる。

第６の態様の情報処理装置によれば、抽出処理によってキー文字列が抽出できなかった場合であっても、キー文字列を取得できる。

第７の態様の情報処理装置によれば、バリュー文字列に対するキー文字列の位置関係を考慮して、キー文字列を検出できる。

第８の態様の情報処理装置によれば、ユーザが文字列を修正する場合と比較して、ユーザの負荷を軽減できる。

第９の態様の情報処理装置によれば、１つの修正候補を用いて修正する場合と比較して、精度よく文字列を修正できる。

第１０の態様の情報処理装置によれば、対象画像にキー文字列に該当する文字列が存在しない場合であっても、キー文字列を出力できる。

第１１の態様の情報処理装置によれば、バリュー文字列に対するキー文字列の位置関係を考慮して、キー文字列を抽出できる。

各実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。第１実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。各実施形態に係る文字列の抽出を行う対象画像の一例を示す図である。各実施形態に係る認識結果の一例を示す図である。各実施形態に係る位置関係データベースの一例を示す図である。各実施形態に係るキー文字列及びバリュー文字列の指定の説明に供する確認訂正画面の一例を示す図である。第１実施形態に係る文字列を抽出する抽出処理の流れの一例を示すフローチャートである。第２実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。第２実施形態に係る文字列を抽出する抽出処理の流れの一例を示すフローチャートである。

［第１実施形態］
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。

図１を参照して、情報処理装置１０の構成について説明する。図１は、本実施形態に係る情報処理装置１０のハードウェア構成の一例を示すブロック図である。一例として、本実施形態に係る情報処理装置１０は、パーソナルコンピュータ等の端末、又はサーバである形態について説明する。しかし、これに限定されない。情報処理装置１０は、画像形成装置等の他の装置に組み込まれていてもよい。

図１に示すように、本実施形態に係る情報処理装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、ストレージ１４、入力部１５、モニタ１６、及び通信インターフェース（通信Ｉ／Ｆ）１７を含んで構成されている。ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、ストレージ１４、入力部１５、モニタ１６、及び通信Ｉ／Ｆ１７の各々は、バス１８により相互に接続されている。ここで、ＣＰＵ１１は、プロセッサの一例である。

ＣＰＵ１１は、情報処理装置１０の全体を統括し、制御する。ＲＯＭ１２は、本実施形態で用いる情報処理プログラムを含む各種プログラム及びデータ等を記憶している。ＲＡＭ１３は、各種プログラムの実行時のワークエリアとして用いられるメモリである。ＣＰＵ１１は、ＲＯＭ１２に記憶されたプログラムをＲＡＭ１３に展開して実行することにより、文字列を抽出する処理を行う。ストレージ１４は、一例としてＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又はフラッシュメモリ等である。なお、ストレージ１４には、情報処理プログラム等を記憶してもよい。入力部１５は、文字の入力等を受け付けるマウス、及びキーボード等である。モニタ１６は、抽出した文字列等を表示する。通信Ｉ／Ｆ１７は、データの送受信を行う。

次に、図２を参照して、情報処理装置１０の機能構成について説明する。図２は、本実施形態に係る情報処理装置１０の機能的な構成の一例を示すブロック図である。

図２に示すように、情報処理装置１０は、取得部２１、認識部２２、推定部２３、抽出部２４、確認訂正部２５、出力部２６、記憶部２７、及び学習部２８Ａを備えている。ＣＰＵ１１が情報処理プログラムを実行することで、取得部２１、認識部２２、推定部２３、抽出部２４、確認訂正部２５、出力部２６、記憶部２７、及び学習部２８Ａとして機能する。

取得部２１は、文字列を抽出する対象となる画像（以下、「対象画像」という。）３１を取得する。なお、本実施形態に係る対象画像３１は、図３に示すように、記載する項目と、項目に対してユーザによって記載された文字列と、印影等のオブジェクト３２と、を含む書類の画像である形態について説明する。しかし、これに限定されない。対象画像３１は、罫線等で区切られた帳票又は伝票の画像であってもよいし、機械的に印字された領収書等であってもよいし、文字列を含む画像であれば如何なる画像であってもよい。また、オブジェクト３２は、書類の種類ごとに予め定められた箇所に位置するものとして説明する。

認識部２２は、文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理を用いて、対象画像３１から書類に含まれている文字列及びオブジェクト３２と、対象画像３１における文字列及びオブジェクト３２の位置（座標）と、を取得し、認識結果３３として出力する。

なお、本実施形態に係る認識結果３３は、一例として図４に示すように、対象画像３１から取得した文字列及びオブジェクト３２、文字列及びオブジェクト３２毎の属性、種類、及び位置（座標）を含む。ここで、認識結果３３に係る文字列毎の属性とは、例えば、「日付」及び「住所」等の文字列が属する属性を示す情報（以下、「属性情報」という。）である。また、種類とは、指定されたキーを示す文字列（以下、「キー文字列」という。）、又はキー文字列に対応するバリューを示す文字列（以下、「バリュー文字列」という。）を表す文字列の種類である。

また、本実施形態では、認識部２２において対象画像３１に含まれる文字列を認識する形態について説明したが、認識部２２において対象画像３１を解析して書類の種類を識別して、認識結果として出力してもよい。例えば、解析として、特定の文字列、及び罫線等の位置を認識し、予め記憶しておいた書類の特徴と比較して書類の種類を識別してもよいし、対象画像３１に含まれている書類を識別するための識別子を認識して、書類の種類を識別してもよい。書類の種類を識別させることによって、書類毎に含まれるキー文字列が特定される。つまり、認識部２２は、書類の種類を識別して、抽出するキー文字列を特定してもよい。

推定部２３は、認識結果３３における文字列毎の属性情報と、認識結果における文字列の種類と、を推定する。推定部２３は、文字列毎に推定した属性、及び文字列の種類を認識結果３３に出力する。例えば、推定部２３は、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、及びＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）等の文字列の属性、及び種類を推定するための学習を行った学習モデルである。推定部２３は、文字列、文字列の属性、及び文字列の種類を予め学習し、認識部２２によって出力された文字列を用いて、文字列の属性、及び種類の推定を行い、認識結果３３に出力する。

なお、本実施形態に係る推定部２３は、文字列の属性、及び種類を推定するための学習を行った学習モデルである形態について説明した。しかし、これに限定されない。後述する記憶部２７に予め記憶されている文字列を用いて、文字列の属性、及び種類の推定を行ってもよい。例えば、推定部２３は、認識部２２によって出力された文字列と、記憶部２７に記憶されている文字列と、の類似する度合（以下、「類似度」という）を導出する。推定部２３は、記憶部２７に記憶されている文字列のうち、最も類似度が高い文字列の属性、及び種類を文字列の属性、及び種類として推定してもよい。また、類似度は、レーベンシュタイン距離を用いて、導出してもよい。ここで、レーベンシュタイン距離とは、任意の文字列を他の文字列に変更する際に、文字の入れ替え、追加、及び削除した回数を計数して導出される距離である。

抽出部２４は、認識結果３３からバリュー文字列の位置を取得し、取得した位置を用いて、バリュー文字列に対応するキー文字列を認識結果３３から抽出する。具体的には、抽出部２４は、バリュー文字列と同一の属性、かつバリュー文字列の近傍に位置する文字列をキー文字列として抽出する。ここで、近傍に位置する文字列とは、例えば、バリュー文字列の位置から予め定められた距離に位置する文字列、又はバリュー文字列の位置から最も短い距離に位置する文字列である。例えば、図３に示す「富士太郎」がバリュー文字列として取得された場合、抽出部２４は、バリュー文字列と同一の属性である「申請者名」を対応するキー文字列として抽出する。

なお、本実施形態では、バリュー文字列の近傍に位置する文字列をキー文字列として抽出する形態について説明した。しかし、これに限定されない。予め定められた方向に位置する文字列をキー文字列として抽出してもよい。例えば、バリュー文字列の左側等のように、バリュー文字列を起点とした予め定められた方向に位置する文字列をキー文字列として抽出してもよい。また、図５に示すように、後述する記憶部２７は、属性、キー名、及び位置関係を関連付けて記憶する位置関係データベース（以下、「位置関係ＤＢ」という。）３４を記憶していてもよい。属性は、文字列の属性であり、キー名は、対象画像３１における書類に記載されているキー文字列の名称であり、位置関係は、各々のキー文字列を基点として、対応するバリュー文字列が位置する方向を示す情報である。ここで、位置関係ＤＢ３４は、関連情報の一例である。

一例として図５に示す「申請日」の位置関係「Ｋ－右－Ｖ」は、対象画像３１において、キー文字列「申請日」の右側にバリュー文字列である「ＸＸ年ＸＸ月ＸＸ日」が位置することを表している。言い換えると、位置関係は、バリュー文字列である「ＸＸ年ＸＸ月ＸＸ日」の左側にキー文字列「申請日」が位置することを表している。

つまり、抽出部２４は、認識結果３３から抽出したバリュー文字列の属性を用いて、位置関係ＤＢ３４からバリュー文字列に係る位置関係を取得する。抽出部２４は、バリュー文字列の位置を基点にして、取得した位置関係が示す方向とは逆方向に位置する文字列をキー文字列として抽出してもよい。

確認訂正部２５は、対象画像３１から抽出した文字列、文字列の属性、文字列の種類及び文字列の位置を表示して、文字列の属性、文字列の種類、及び文字列の位置の訂正を受け付ける。一例として、図６に示すように、確認訂正部２５は、確認訂正画面４０を表示する。確認訂正画面４０は、抽出文字列表示領域４１、及び対象画像表示領域４２を備えている。確認訂正部２５は、抽出部２４が抽出した文字列を抽出文字列として抽出文字列表示領域４１に表示し、表示した文字列に対応する文字列の位置を対象画像表示領域４２における対象画像３１にハイライトで表示する。

また、確認訂正画面４０は、抽出文字列表示領域４１に表示されている抽出文字列が選択された後、対象画像表示領域４２における抽出文字列に対応する位置を指定されることによって抽出した文字列と、対象画像３１における文字列の位置と、の訂正を受け付ける。例えば、抽出文字列表示領域４１において「申込日」が選択された後、対象画像表示領域４２において、ユーザによって「申込日」が記載されている領域を指定されることによって、キー文字列、及びキー文字列の位置の訂正を受け付ける。この際に、抽出文字列表示領域４１の「申込日」における色彩欄、及び対象画像表示領域４２における「申込日」が記載された領域には、同一の色彩のハイライトが表示される。

出力部２６は、対象画像３１から抽出したキー文字列、及びバリュー文字列を出力する。

記憶部２７は、対象画像３１と、対象画像３１から抽出した文字列、対象画像３１における文字列の位置を関連付けて記憶する。また、記憶部２７は、位置関係ＤＢ３４、過去に抽出が行われた対象画像３１、及び過去に抽出が行われた対象画像３１における文字列を記憶している。

学習部２８Ａは、学習モデルである推定部２３の学習を行う。学習部２８Ａは、対象画像３１、及び文字列を入力データとし、文字列の属性、及び種類を教師データとして、推定部２３に学習させる。

なお、本実施形態に係る推定部２３は、文字列を入力データとして学習して、文字列の属性、及び種類を推定する形態について説明した。しかし、これに限定されない。対象画像３１における文字列の位置を入力データとしてもよい。例えば、推定部２３は、対象画像３１における認識結果３３に含まれる文字列の位置を入力データとして、文字列の属性、及び種類を学習して、推定してもよい。

また、推定部２３は、対象画像３１における文字列の位置と、対象画像３１に含まれるオブジェクト３２の位置と、の関係を学習して、文字列の属性、及び種類を推定してもよい。例えば、書類には同一の属性である「住所」を示す文字列であっても、「申請先住所」及び「申請元住所」等のように、異なる「住所」を示していることがあり、「請求先住所」のように、対象画像３１にキー文字列が含まれないことがある。しかしながら、記載されている項目、及び書類に含まれるオブジェクト３２の位置は、書類毎に予め定められているため、対象画像３１に含まれるオブジェクト３２と、文字列と、の位置関係から文字列の属性、及び種類を特定することが可能である。つまり、推定部２３は、対象画像３１に含まれるオブジェクト３２の位置と、対象画像３１における文字列の位置と、の関係を入力データとして学習し、文字列の属性、及び種類を推定してもよい。

また、推定部２３は、各々の文字列の位置関係を入力データとして学習し、文字列の属性、及び種類を推定してもよいし、位置関係ＤＢ３２に含まれる位置関係、及び文字列の位置を入力データとして学習して、文字列の属性、及び種類を推定してもよい。また、推定部２３は、バリュー文字列に対応するキー文字列が、対象画像３１に含まれていない場合、推定した属性をキー文字列として設定してもよいし、バリュー文字列に対応するキー文字列を推定してもよい。

次に、図７を参照して、本実施形態に係る情報処理装置１０の作用について説明する。図７は、本実施形態に係る文字列を抽出する抽出処理の一例を示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から情報処理プログラムを読み出し、実行することによって、図７に示す情報処理プログラムが実行される。図７に示す情報処理プログラムは、例えば、ユーザから対象画像３１、及び抽出処理を実行する指示が入力された場合、情報処理プログラムが実行される。

ステップＳ１０１において、ＣＰＵ１１は、ユーザによって入力された対象画像３１を取得する。

ステップＳ１０２において、ＣＰＵ１１は、取得した対象画像３１に対して文字認識処理を実行して、文字列、及び文字列の位置を認識結果３３として出力する。

ステップＳ１０３において、ＣＰＵ１１は、認識結果３３を用いて、文字列の属性、及び種類を推定して、認識結果３３に出力する。

ステップＳ１０４において、ＣＰＵ１１は、認識結果３３からバリュー文字列を検索して抽出する。

ステップＳ１０５において、ＣＰＵ１１は、抽出したバリュー文字列の位置、及び属性を用いて、バリュー文字列に対応するキー文字列を特定して抽出する。

ステップＳ１０６において、ＣＰＵ１１は、キー文字列が抽出できたか否かの判定を行う。キー文字列が抽出できた場合（ステップＳ１０６：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１０７に移行する。一方、キー文字列が抽出できなかった場合（ステップＳ１０６：ＮＯ）、ＣＰＵ１１は、ステップＳ１０７に移行する。

ステップＳ１０７において、ＣＰＵ１１は、バリュー文字列の属性をキー文字列として設定する。

ステップＳ１０８において、ＣＰＵ１１は、キー文字列、及びバリュー文字列を関連付けて、抽出した結果を出力する。

ステップＳ１０９において、ＣＰＵ１１は、他のバリュー文字列が存在するか否かの判定を行う。他のバリュー文字列が存在する場合（ステップＳ１０９：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１０４に移行する。一方、他のバリュー文字列が存在しない場合（ステップＳ１０９：ＮＯ）、ＣＰＵ１１は、ステップＳ１１０に移行する。

ステップＳ１１０において、ＣＰＵ１１は、確認訂正画面を表示して、ユーザによる文字列の属性、種別、及び位置の訂正を受け付ける。

ステップＳ１１１において、ＣＰＵ１１は、対象画像３１、文字列の属性、種類、及び位置を関連付けて記憶する。

ステップＳ１１２において、ＣＰＵ１１は、抽出した結果を用いて、キー文字列、及びバリュー文字列を出力する。

以上説明したように、本実施形態によれば、文字列の属性を用いて、バリュー文字列に対応するキー文字列を抽出して、キーバリュー抽出が実行される。したがって、文字認識処理によって、キー文字列が抽出できない場合、又は書類等にバリュー文字列に対応するキー文字列が含まれていない場合であっても、対応した文字列としてキー文字列、及びバリュー文字列が出力される。

［第２実施形態］
第１実施形態では、認識結果３３からバリュー文字列に対応するキー文字列を抽出できた場合、キー文字列、及びバリュー文字列を関連付けて出力する形態について説明した。本実施形態では、認識結果３３からバリュー文字列に対応するキー文字列を抽出できなかった場合、対象画像３１からキー文字列に対応する画像を検出して、キー文字列、及びバリュー文字列を関連付けて出力する形態について説明する。

なお、本実施形態に係る情報処理装置１０のハードウェア構成（図１参照）、対象画像３１の例（図３参照）、認識結果３３の例（図４参照）、及び位置関係ＤＢ３４の例（図５参照）は、第１実施形態と同様であるため、説明を省略する。また、本実施形態に係る確認訂正画面４０の例（図６参照）は、第１実施形態と同様であるため、説明を省略する。

次に、図８を参照して、情報処理装置１０の機能構成について説明する。図８は、本実施形態に係る情報処理装置１０の機能的な構成の一例を示すブロック図である。なお、図８における図２に示す情報処理装置１０の機能と同一の機能については、図８と同一の符号を付して、その説明を省略する。

図８に示すように、情報処理装置１０は、取得部２１、認識部２２、推定部２３、抽出部２４、確認訂正部２５、出力部２６、記憶部２７、学習部２８Ｂ、及び検出部２９を備えている。ＣＰＵ１１が情報処理プログラムを実行することで、取得部２１、認識部２２、推定部２３、抽出部２４、確認訂正部２５、出力部２６、記憶部２７、学習部２８Ｂ、及び検出部２９として機能する。

学習部２８Ｂは、学習モデルである推定部２３、及び後述する検出部２９の学習を行う。学習部２８Ｂは、対象画像３１、及び文字列を入力データとし、文字列の属性、及び種類を教師データとして、推定部２３に学習させる。また、学習部２８Ｂは、対象画像３１、及び文字列の位置を入力データとし、バリュー文字列に対応するキー文字列を教師データとして、後述する検出部２９に学習させる。

検出部２９は、物体検知処理を用いて、対象画像３１から指定されたバリュー文字列の近傍に位置するキー文字列を検出する。具体的には、検出部２９は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）及びＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）等の指定された文字列の近傍に位置する文字列を検出するための機械学習を行った学習モデルである。検出部２９は、対象画像３１からバリュー文字列の近傍に位置するキー文字列の画像を検出し、検出した画像を識別してキー文字列を取得して、推定部２３に出力する。

なお、本実施形態係る検出部２９は、機械学習を用いた学習モデルであり、対象画像３１からバリュー文字列の位置の近傍に位置するキー文字列の画像を検出する形態について説明した。しかし、これに限定されない。パターンマッチング処理を用いて、バリュー文字列の位置の近傍に位置するキー文字列の画像を検出してもよい。例えば、キー文字列に対応した各々の画像を予め記憶し、形状検出、及びテンプレートマッチング等のパターンマッチング処理によってキー文字列の画像を検出する。検出部２９は、キー文字列に対応した画像を用いて、対象画像３１からキー文字列を検出し、バリュー文字列の近傍に位置するキー文字列を特定してもよい。

次に、図９を参照して、本実施形態に係る情報処理装置１０の作用について説明する。図９は、本実施形態に係る文字列を抽出する抽出処理の一例を示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から情報処理プログラムを読み出し、実行することによって、図９に示す情報処理プログラムが実行される。図９に示す情報処理プログラムは、例えば、ユーザから対象画像３１、及び抽出処理を実行する指示が入力された場合、情報処理プログラムが実行される。なお、図９における図７に示す抽出処理と同一のステップについては、図７と同一の符号を付して、その説明を省略する。

ステップＳ１１３において、ＣＰＵ１１は、キー文字列が抽出できたか否かの判定を行う。キー文字列が抽出できた場合（ステップＳ１１３：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１０８に移行する。一方、キー文字列が抽出できなかった場合（ステップＳ１１３：ＮＯ）、ＣＰＵ１１は、ステップＳ１１４に移行する。

ステップＳ１１４において、ＣＰＵ１１は、対象画像３１に対して、バリュー文字列の位置を用いてキー文字列を検出する検出処理を実行して、キー文字列を検出結果として出力する。ここで、検出処理とは、対象画像３１からバリュー文字列に対応するキー文字列の画像を検出し、キー文字列を取得する処理である。

ステップＳ１１５において、ＣＰＵ１１は、検出結果を用いて、文字列の属性、及び種類を推定して、検出結果に出力する。

ステップＳ１１６において、ＣＰＵ１１は、検出したキー文字列が、バリュー文字列に対応するか否かの判定を行う。バリュー文字列に対応する場合（ステップＳ１１６：ＹＥＳ）、ＣＰＵ１１は、ステップＳ１０８に移行する。一方、バリュー文字列に対応しない場合（ステップＳ１１６：ＮＯ）、ＣＰＵ１１は、ステップＳ１１７に移行する。

ステップＳ１１７において、ＣＰＵ１１は、バリュー文字列の属性をキー文字列として設定する。

以上説明したように、本実施形態によれば、検出処理を用いて、バリュー文字列に対応するキー文字列を検出して、キーバリュー抽出が実行される。したがって、文字認識処理によって、キー文字列が抽出できない場合であっても、対応した文字列としてキー文字列、及びバリュー文字列が出力される。

なお、本実施形態では、検出処理によって、キー文字列を検出する形態について説明した。しかし、これに限定されない。バリュー文字列を検出してもよい。

また、本実施形態では、確認訂正画面４０において、文字列の属性、種類、及び位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。抽出した文字列の訂正を受け付けてもよい。また、抽出した文字列の訂正を受け付ける場合、抽出した文字列を一律に表示して訂正を受け付けてもよい。また、文字列の確からしさを表す確信度を導出し、確信度が予め定められた閾値より小さい場合、確信度が予め定められた閾値より小さい文字列のみを表示してもよい。

また、本実施形態では、確認訂正画面４０において、認識結果３３から取得した文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。対象画像３１における文字列の位置の指定を受け付けてもよい。

また、本実施形態では、確認訂正を行う際に、文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。対象画像３１を情報処理装置１０に入力した際に、予め文字列の位置の指定を受け付けてもよいし、文字列を出力した後の任意の契機に、記憶部２７に記憶されている対象画像３１を表示して、文字列の位置の訂正を受け付けてもよい。

また、本実施形態では、確認訂正画面４０において文字列の修正を受け付ける形態について説明した。しかし、これに限定されない。記憶部２７に記憶されている文字列、又は過去に抽出された文字列を用いて、抽出した文字列を修正してもよい。また、記憶部２７に複数のバリュー文字列を関連付けて記憶し、抽出したバリュー文字列に対応する他のバリュー文字列を記憶部２７から検索して提示してもよい。例えば、記憶部２７は、過去に抽出された「氏名」のバリュー文字列と、「住所」のバリュー文字列と、を関連付けて、記憶する。抽出部２４は、「氏名」のバリュー文字列を抽出した場合、「氏名」のバリュー文字列に対応する「住所」のバリュー文字列を記憶部２７から取得して、修正候補として提示して、修正してもよい。

また、抽出した文字列を修正するための機械学習を用いた学習モデルを用いて、抽出した文字列を修正してもよい。例えば、過去に抽出処理が行われた対象画像３１から抽出した文字列及び過去に修正された文字列を記憶部２７に記憶し、図示しない修正部は、記憶部２７に記憶されている対象画像３１、及び対象画像３１における文字列及び過去に修正された文字列を学習する。修正部は、抽出した文字列の修正候補を提示して、文字列を修正してもよい。

以上、各実施形態を用いて本発明について説明したが、本発明は各実施形態に記載の範囲には限定されない。本発明の要旨を逸脱しない範囲で各実施形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。

なお上記実施形態において、プロセッサとは広義的なプロセッサを指し、例えば汎用的なプロセッサ（例えば、ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や、専用のプロセッサ（例えば、ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

また、上記各実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

また、本実施形態では、情報処理プログラムがストレージにインストールされている形態を説明したが、これに限定されるものではない。本実施形態に係る情報処理プログラムを、コンピュータ読取可能な記憶媒体に記録した形態で提供してもよい。例えば、本発明に係る情報処理プログラムを、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ等の光ディスクに記録した形態で提供してもよい。本発明に係る情報処理プログラムを、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ及びメモリカード等の半導体メモリに記録した形態で提供してもよい。また、本実施形態に係る情報処理プログラムを、通信Ｉ／Ｆ１７に接続された通信回線を介して外部装置から取得するようにしてもよい。

１０情報処理装置
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４ストレージ
１５入力部
１６モニタ
１７通信インターフェース
１８バス
２１取得部
２２認識部
２３推定部
２４抽出部
２５確認訂正部
２６出力部
２７記憶部
２８Ａ、２８Ｂ学習部
２９検出部
３１対象画像
３２オブジェクト
３３認識結果
３４位置関係データベース
４０確認訂正画面
４１抽出文字列表示領域
４２対象画像表示領域

Claims

プロセッサを有し、前記プロセッサは、
文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列、及び前記キー文字列に対応するバリューを示す文字列であるバリュー文字列が属する属性を示す情報である属性情報を取得し、
前記属性情報を用いて、前記文字認識の実行結果から抽出した前記バリュー文字列に対応する前記キー文字列を取得し、
取得したキー文字列、及び対応するバリュー文字列を出力する
情報処理装置。
前記プロセッサは、
文字列が属する属性を推定するための学習を行った推定モデルをさらに備え、
前記推定モデルを用いて、前記対象画像に含まれる文字列の属性を推定する
請求項１に記載の情報処理装置。
前記プロセッサは、
前記推定モデルに、前記文字列と、前記文字列の属性と、を予め学習させ、
前記文字認識の結果から抽出した前記文字列を用いて、前記属性を推定する
請求項２に記載の情報処理装置。
前記プロセッサは、
前記対象画像における前記文字列の位置を示す情報である位置情報をさらに取得し、
前記推定モデルに、画像における文字列の位置と、文字列の属性と、を予め学習させ、
前記文字認識の結果から抽出した前記文字列の位置を用いて、前記属性を推定する
請求項２に記載の情報処理装置。
前記プロセッサは、
前記推定モデルに、画像における文字列の位置として、画像における予め定められた箇所に位置するオブジェクトと、文字列と、の位置の関係を学習させ、
前記対象画像に含まれるオブジェクトの位置と、前記対象画像における前記文字列の位置と、の関係から属性を推定する
請求項４に記載の情報処理装置。
前記プロセッサは、
画像に含まれる文字列を検出するための学習を行った検出モデルをさらに備え、
前記対象画像に対する前記文字認識の結果から前記キー文字列が抽出できなかった場合、前記検出モデルを用いて、前記キー文字列を抽出する
請求項１から請求項５の何れか１項に記載の情報処理装置。
前記プロセッサは、
前記キー文字列、及び前記バリュー文字列の位置の関係を表す情報である位置関係情報をさらに取得し、
前記検出モデルを用いて、前記位置関係情報と、前記文字認識の結果から抽出した前記バリュー文字列の位置と、により、前記キー文字列を検出する
請求項６に記載の情報処理装置。
前記プロセッサは、
予め記憶されたバリュー文字列、又は過去に修正されたバリュー文字列を用いて、前記文字認識の結果から抽出した前記バリュー文字列を修正して出力する
請求項１から請求項７の何れか１項に記載の情報処理装置。
前記プロセッサは、
予め記憶されたバリュー文字列、又は過去に修正されたバリュー文字列を学習した修正モデルを用いて、前記文字認識の結果から抽出した前記バリュー文字列を修正する
請求項８に記載の情報処理装置。
前記プロセッサは、
前記バリュー文字列に対応する前記キー文字列が抽出できない場合、前記属性情報を前記キー文字列に設定して、前記キー文字列、及び対応する前記バリュー文字列を出力する
請求項１から請求項９の何れか１項に記載の情報処理装置。
前記プロセッサは、
前記キー文字列、及び前記バリュー文字列の位置の関係を表す情報である位置関係情報と、前記属性情報と、を関連付けた情報である関連情報をさらに取得し、
前記バリュー文字列の属性を示す属性情報に対して、前記関連情報において関連付けられている位置関係情報と、前記文字認識の結果から抽出した前記バリュー文字列の位置と、により抽出した前記バリュー文字列に対応する前記キー文字列を取得する
請求項１から請求項１０の何れか１項に記載の情報処理装置。
コンピュータに、
文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列、及び前記キー文字列に対応するバリューを示す文字列であるバリュー文字列が属する属性を示す情報である属性情報を取得し、
前記属性情報を用いて、前記文字認識の実行結果から抽出した前記バリュー文字列に対応する前記キー文字列を取得し、
取得したキー文字列、及び対応するバリュー文字列を出力する
ことを実行させるための情報処理プログラム。