JP7365835B2

JP7365835B2 - 構造認識システム、構造認識装置、構造認識方法、及びプログラム

Info

Publication number: JP7365835B2
Application number: JP2019179710A
Authority: JP
Inventors: 美恵大串; 貴広馬場; 陽太 ▲高▼岡; 英雄寺田
Original assignee: Open Stream Inc
Current assignee: Open Stream Inc
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-10-20
Anticipated expiration: 2039-09-30
Also published as: JP2021056796A

Description

本発明は、構造認識システム、構造認識装置、構造認識方法、及びプログラムに関する。

帳票などの文書をスキャナー等により読み込むことにより作成されたスキャン画像から、画像内の文字情報を抽出する技術がある（例えば、特許文献１－２参照）。特許文献１の技術では、画像内の文字をその位置に基づいて構造化することにより、文字情報の誤りを修正し易くする技術が開示されている。特許文献１の構造化とは、文字情報を一群の情報ごとにまとめ、まとめた情報の階層関係を特定し、表現すること、と記載されている。例えば、画像から、タイトル、文書作成者、及び文書作成日等の文字情報が抽出された場合、構造化されたデータでは、最上位の階層にタイトルが示され、その下層に文書作成者、及び文書作成日が示される。特許文献２の技術では、画像内の文字情報と、罫線の特徴を示す特徴情報を抽出する。これにより、文書を検索する際に、文書に記載された文字に加えて、文書に記載された罫線の特徴を指定することができ、効率よく検索することが可能である。

一方、近年のコンピュータおよび通信ネットワーク技術の発展に伴い、紙媒体の情報が電子データに置き換えられる傾向がある。帳票を電子化することにより、ペーパーレス化による業務の効率化や省資源化を実現することができ、尚且つ、スマートフォンなどの電子機器を介して文書の記入欄などに記入することができるようになり、ユーザの利便性を向上させることができる。

帳票を電子化する場合、そのレイアウトが変更されることが多い。帳票が印字された紙面と、スマートフォンなどの電子機器の画面とでは、アスペクト比が互いに異なり、紙の帳票のレイアウトを変更することなく、そのまま電子機器の画面に表示させると、表示の縮尺によっては文書の一部が表示できなかったり、画像全体を表示させようとすると、かなり縮小されてしまい文字が読み取り難くなってしまったりする可能性があるためである。レイアウトを変更する場合には、変換前の帳票に記載されていた内容を、変換後の帳票に過不足なく反映させる必要がある。この対策として、例えば、特許文献１－２の技術を適用して帳票のレイアウトを変更することが考えられる。特許文献１－２の技術を用いれば、帳票に記載された文字の構造、及び罫線の特徴を維持して、レイアウトを変更することが可能となる。

特開２０１９－８２８１４号公報特開２００８－４０８３４号公報

しかしながら、文字の構造、及び罫線の特徴を維持してレイアウトを変更しても、変換前の帳票に記載されていた内容を、変換後の帳票に過不足なく反映させることができない。帳票には、必要事項を記入するための記入枠が存在するものが多い。このような記入枠のほとんどが、文字を含まない、単純な矩形で示される。このような記入枠それ自体からは文字の情報を抽出することはできない。このため特許文献１の技術では、記入枠などの矩形を含む帳票に記載されている事項すべてについて階層構造を判定することが困難である。また、特許文献２を用いてレイアウト変更後の帳票に変更前の罫線の特徴が維持されたとしても、罫線で区分される何れの領域に文字を記載するか、或いは記載しないで記入枠とするかが判らなければ、適切にレイアウト変換を行うことができない。このように、従来の技術をそのまま利用するのみでは、帳票に記載されている事項（矩形を含む）の意味的な繋がり（構造）を維持しながら、レイアウトを変更することが困難であった。

本発明は、このような状況に鑑みてなされたもので、矩形を含む文書のレイアウトを変換するために必要な情報を抽出することができる構造認識システム、構造認識装置、構造認識方法、及びプログラムを提供する。

本発明の上述した課題を解決するために、本発明は、文字と矩形とを含む対象画像における画像データを取得する画像データ取得部と、前記対象画像における文字と矩形のそれぞれの領域を判定する領域判定部と、前記領域判定部によって判定された前記領域に関する領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定する構造判定部と、を備え、前記構造判定部は、前記対象画像に含まれる矩形のうち、前記階層構造を判定する対象である着目矩形の従属元となる矩形又は文字を判定する構造認識システムである。
また、本発明は、文字と矩形とを含む対象画像における画像データを取得する画像データ取得部と、前記対象画像における文字と矩形のそれぞれの領域を判定する領域判定部と、前記領域判定部によって判定された前記領域に関する領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定する構造判定部と、文字の領域を示す前記領域データを用いて、当該領域に示される第１文字に対応する特定の第２文字を含む意味タグ情報を生成する前処理部と、を備え、前記構造判定部は、学習済みモデルを用いて前記階層構造を判定し、前記学習済みモデルは、文字と矩形とを含む学習画像における前記意味タグ情報及び矩形の領域を示す前記領域データと、前記学習画像に含まれる矩形の階層構造とを対応付けた学習用データセットを用いて、入力された画像に含まれる矩形の階層構造を出力するように学習されたモデルである、構造認識システムである。

また、本発明は、上述の構造認識システムにおいて、文字の領域を示す前記領域データを用いて、当該領域に示される第１文字に対応する特定の第２文字を含む意味タグ情報を生成する前処理部を更に備え、前記構造判定部は、前記意味タグ情報と、矩形の領域を示す前記領域データとに基づいて、前記階層構造を判定する。

また、本発明は、上述の構造認識システムにおいて、前記構造判定部は、学習済みモデルを用いて前記階層構造を判定し、前記学習済みモデルは、文字と矩形とを含む学習画像における前記意味タグ情報及び矩形の領域を示す前記領域データと、前記学習画像に含まれる矩形の前記階層構造とを対応付けた学習用データセットを用いて、入力された画像に含まれる矩形の階層構造を出力するように学習されたモデルである。

また、本発明は、上述の構造認識システムにおいて、前記構造判定部は、前記対象画像において、前記階層構造を判定する着目矩形を選択し、前記選択した着目矩形の位置から所定の第１範囲内に位置する前記意味タグ情報である近傍意味タグ群を取得し、前記選択した着目矩形の位置から所定の第２範囲内に位置する矩形の前記領域データである近傍矩形群を取得し、取得した前記着目矩形、前記近傍意味タグ群、及び前記近傍矩形群の位置に応じた並べ替えを行うことにより、前記学習済みモデルに入力させる入力データの順序を決定する。

また、本発明は、対象画像における文字と矩形とのそれぞれの領域に関する領域データを取得する領域データ取得部と、前記領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定し、前記対象画像に含まれる矩形のうち、前記階層構造を判定する対象である着目矩形の従属元となる矩形又は文字を判定する構造判定部と、を備える構造認識装置である。

また、本発明は、領域データ取得部が、対象画像における文字と矩形とのそれぞれの領域に関する領域データを取得し、構造判定部が、前記領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定し、前記対象画像に含まれる矩形のうち、前記階層構造を判定する対象である着目矩形の従属元となる矩形又は文字を判定する構造認識方法である。

また、本発明は、コンピュータを、上記に記載の構造認識装置として動作させるためのプログラムであって、前記コンピュータを前記構造認識装置が備える各部として機能させるためのプログラムである。

本発明によれば、矩形を含む文書のレイアウトを変換するために必要な情報を抽出することができる。

実施形態に係る構造認識システム１の構成例を示す図である。実施形態に係る構造認識システム１が行う処理を説明する図である。実施形態に係る領域分割装置１０の構成例を示すブロック図である。実施形態に係る構造認識装置３０の構成例を示すブロック図である。実施形態に係る変換テーブル３６０の構成例を示す図である。実施形態に係る領域分割装置１０が行う処理を説明する図である。実施形態に係る構造認識装置３０が行う処理を説明する図である。実施形態に係る構造認識システム１を適用したレイアウト変換の例を示す図である。実施形態に係る構造認識システム１が行う処理の流れを示すシーケンス図である。

以下、発明の実施形態について図面を参照しながら説明する。

本実施形態の構造認識システム１は、矩形を含む文書のレイアウトを変換するために必要な情報を抽出するシステムである。

以下の説明では、レイアウトを変換する対象とする文書が帳票である場合を例示して説明するが、これに限定されることはない。レイアウトを変換する対象は、少なくとも文字と矩形とが含まれる文書であればよく、例えば、アンケート、問診票、テスト問題、定型文テンプレート、アイディアシートなど、任意の文書であってよい。文書に含まれる矩形とは、文書において長方形や正方形など四角形状に囲まれた領域を示す。矩形は、実線で囲まれた領域のみならず、点線や特定の記号や図形により囲まれた矩形の領域、或いは、背景色の濃淡等により区分される矩形の領域を含む。また、文書に含まれる文字とは、単体の文字のみならず、複数の文字からなる文字列や、文字群を含む。

レイアウトを変換するために必要な情報とは、帳票に含まれる文字及び矩形の階層構造を示す情報（以下、構造化データと称する）である。帳票に含まれる文字及び矩形の階層構造が判れば、その構造を維持したままレイアウトを変換することができる。したがって、レイアウト変換前と変換後において帳票に示される文字や記入欄等とそれらの相対的な位置関係を維持することができる。すなわち、帳票が示している内容を維持したままレイアウトを変更するためには、帳票に含まれる文字及び矩形の構造化データを抽出する必要がある。

構造化データの例を説明する。図６に示すように、帳票が、矩形の領域Ｋ１～Ｋ５を含む場合を考える。図７に示すように、領域Ｋ１～Ｋ３の構造化データは、上位の階層に領域Ｋ１、その下に領域Ｋ２、Ｋ３が従属されるという階層構造を示す情報である。領域Ｋ４、Ｋ５の構造化データは、上位の階層に領域Ｋ４、その下に領域Ｋ５が従属されるという階層構造を示す情報である。

構造認識システム１の全体構成について、図１を用いて説明する。図１は、実施形態に係る構造認識システム１の構成例を示すブロック図である。図1に示すように、構造認識システム１は、例えば、領域分割装置１０と、ＯＣＲ装置２０と、構造認識装置３０とを備える。構造認識システム１におけるこれらの構成要素（領域分割装置１０、ＯＣＲ装置２０、及び構造認識装置３０）は、通信可能に接続される。
なお、図１ではＯＣＲ装置２０が文字認識を行う場合を例示したが、文字認識処理の機能が、領域分割装置１０、又は構造認識装置３０に設けられていてもよく、この場合、ＯＣＲ装置２０を省略することができる。

領域分割装置１０は、帳票を、その帳票に示された文字及び矩形等の領域に分割する装置である。ＯＣＲ装置２０は、入力された画像に示された文字を認識する文字認識処理を行う装置である。構造認識装置３０は、帳票に示される矩形の階層構造を判定する装置である。

以下では、構造認識装置３０が、帳票に示される「矩形」の階層構造を特定する場合を例示して説明する。帳票に示される「文字」の階層構造を特定する場合にも同様の方法を適用することができる。

また、以下では、階層構造として、帳票に含まれる矩形の従属元となる矩形又は文字の識別情報（以下、親ＩＤと称する）を判定する場合を例示して説明する。この場合、構造化データは、矩形と、その矩形の親ＩＤとを対応付けた情報である。階層構造として親ＩＤを判定する方法を用いることによって、データ容量の増加を抑制しつつ、矩形の構造を一意に特定することができるため好適である。しかしながら、これに限定されることはない。矩形の階層構造を特定する方法として、矩形の従属先となる矩形又は文字の識別情報（以下、子ＩＤと称する）を判定することも考えられる。この場合、一つの矩形に複数の文字や矩形が従属する構造が有り得るため、矩形に複数の子ＩＤを対応付けられるような構成をとる必要があるためデータ容量の増加を招く要因となり得る。矩形の階層構造を特定する方法は、少なくとも階層構造が特定できれば、任意の方法であってよい。矩形の階層構造を特定する方法は、矩形に親ＩＤを対応付ける方法であってもよいし、矩形に子ＩＤを対応付ける方法であってもよいし、矩形に親ＩＤと子ＩＤの双方を対応付ける方法であってもよいし、他の方法であってもよいのは勿論である。

ここで、構造認識システム１が行う処理について、図２を用いて説明する。図２は、実施形態に係る構造認識システム１が行う処理を説明する図である。図２に示すように、帳票Ｔをスキャナーにより読み込む処理（スキャン処理ＳＣ）によりスキャンされた帳票Ｔの画像（スキャン画像）を示す情報（スキャン画像データＳＤ）が作成される。スキャン画像は、領域分割装置１０による処理の対象となる画像である。すなわち、スキャン画像は、「対象画像」の一例である。スキャン画像データＳＤは、領域分割装置１０に入力される。これにより、領域分割装置１０は、スキャン画像データＳＤを取得する。

領域分割装置１０は、スキャン画像データＳＤに基づいて、帳票Ｔにおける文字、矩形などの要素ごとの領域に分割する。領域分割装置１０は、スキャン画像における、文字の領域を示す情報（文字領域データＭＤ）、及び矩形の領域を示す情報（矩形領域データＫＤ）を出力する。領域分割装置１０は、文字領域データＭＤをＯＣＲ装置２０に出力する。文字領域データＭＤは、「領域データ」の一例である。矩形領域データＫＤは、「領域データ」の一例である。

ＯＣＲ装置２０は、領域分割装置１０から取得した文字領域データに示される文字を認識する文字認識処理を行なう。ＯＣＲ装置２０は、認識した文字の内容を示す情報（文字認識データＭＮＤ）を構造認識装置３０に通知する。文字認識データＭＮＤは、構造認識装置３０に入力される。これにより、構造認識装置３０は、文字認識データＭＮＤを取得する。

一方、領域分割装置１０によって出力された文字領域データＭＤ、及び矩形領域データＫＤは、構造認識装置３０に入力される。これにより、構造認識装置３０は、文字領域データＭＤ、及び矩形領域データＫＤを取得する。

構造認識装置３０は、領域分割装置１０から取得した文字領域データＭＤ、及び矩形領域データＫＤ、及びＯＣＲ装置２０から取得した文字認識データＭＮＤに基づいて、帳票に示される矩形の階層構造を判定する。構造認識装置３０は、変換テーブル３６０を用いて、文字認識データＭＮＤを、その文字の意味ごとに区分する。構造認識装置３０は、構造判定部３４よって、文字領域データＭＤ、矩形領域データＫＤ、及び文字認識データＭＮＤをその文字の意味ごとに区分した情報を用いて、矩形の階層構造を判定する。構造認識装置３０が矩形の階層構造を判定する方法については後で詳しく説明する。構造認識装置３０は、矩形の階層構造を示す情報（構造化データＫＺＤ）を出力する。

ここで、領域分割装置１０の構成について、図３を用いて説明する。図３は、実施形態に係る領域分割装置１０の構成例を示すブロック図である。図３に示すように、領域分割装置１０は、例えば、画像データ取得部１１と、変調画像生成部１２と、領域判定部１３と、領域データ出力部１４と、記憶部１５とを備える。

画像データ取得部１１は、スキャン画像データＳＤを取得する。スキャン画像データＳＤは、例えば、画素ごとに、画像に関する情報が対応付けられた情報であり、画素ごとのグレースケール値が示された情報、或いは、画素ごとのＲＧＢ値が示された情報等である。画像データ取得部１１は、取得したスキャン画像データＳＤを、変調画像生成部１２、及び領域判定部１３に出力する。

変調画像生成部１２は、画像データ取得部１１から取得したスキャン画像データＳＤに基づいて、強調画像を生成する。強調画像は、スキャン画像における画素ごとの画素値（グレースケール値や、ＲＧＢ値）を所定の変調条件に基づいて変更した画像である。

変調画像生成部１２は、例えば、スキャン画像のエッジを強調する強調処理を行った画像を強調画像として生成する。この場合、変調画像生成部１２は、スキャン画像におけるエッジを検出し、検出したエッジを強調する処理を行う。変調画像生成部１２は、例えば、従来行われている任意の手法により、スキャン画像におけるエッジを検出する。任意の手法とは、例えば、スキャン画像にメディアンフィルタ処理を行ったものと、ガウシアンフィルタなどによる平滑化処理を行ったものとの差分を検出することにより、エッジを検出する手法である。或いは、スキャン画像に、ラプラシアンフィルタやソーベル（Sobel）フィルタを適用することにより、エッジを検出する手法を用いてもよい。変調画像生成部１２は、検出したエッジをある特定の画素値（例えば、「黒」を示すグレースケール値や、ＲＧＢ値）とし、エッジとして検出されなかった画素の画素値を、別の特定の画素値（例えば、「白」を示すグレースケール値や、ＲＧＢ値）に変換することにより、強調画像を生成する。変調画像生成部１２は、生成した強調画像の画像データを領域判定部１３に出力する。

領域判定部１３は、スキャン画像、及び強調画像のそれぞれの画像における文字、矩形及び背景（文字でなく、且つ矩形でない要素）の領域を判定する。領域判定部１３は、例えば、領域判定モデル１５０を用いて画像における文字、及び矩形の領域を判定する。領域判定モデル１５０は、記憶部１５に記載される情報であって、画像データと、画像における文字、矩形及び背景のそれぞれの領域を判定した結果とを対応付けた学習用データセットを、学習モデルに学習させた学習結果である。このような学習用データセットを学習させることにより、学習モデルは、入力された画像のデータに対し、その画像における文字、及び矩形の領域を、精度よく出力（予測）できるように学習される。学習モデルは、例えば、ＤＣＮＮ（Deep Convolutional Neural Network）であるが、これに限定されることはない。学習モデルとして、例えば、ＣＮＮ、決定木、階層ベイズ、ＳＶＭ（Support Vector Machine）などの手法、およびこれらを適宜組み合わせた手法が用いられてもよい。

領域判定部１３は、スキャン画像、及び強調画像におけるそれぞれの判定結果に基づいて、スキャン画像における文字、矩形及び背景のそれぞれの領域を確定させる。領域判定部１３は、例えば、スキャン画像の判定結果と、強調画像の判定結果とが一致する領域については、スキャン画像の判定結果をそのまま確定させる。

一方、領域判定部１３は、スキャン画像の判定結果と、強調画像の判定結果とが一致しない領域については、予め定めた所定の規定に基づいて文字、矩形及び背景のそれぞれの領域を確定させる。例えば、領域判定部１３は、スキャン画像、及び強調画像のうち少なくとも一方が文字、他方が背景と判定した領域を、スキャン画像における文字の領域に確定させる。領域判定部１３は、例えば、スキャン画像、及び強調画像のうち少なくとも一方が矩形、他方が背景と判定した領域を、スキャン画像における矩形の領域に確定させる。領域判定部１３は、スキャン画像における文字の領域を示す情報（文字領域データＭＤ）、及び、矩形の領域を示す情報（矩形領域データＫＤ）を領域データ出力部１４に出力する。

領域データ出力部１４は、文字領域データＭＤをＯＣＲ装置２０に出力する。領域データ出力部１４は、文字領域データＭＤ、及び矩形領域データＫＤを構造認識装置３０に出力する。記憶部１５は、領域判定モデル１５０を記憶する。

ここで、構造認識装置３０の構成について、図４を用いて説明する。図４は、実施形態に係る構造認識装置３０の構成例を示すブロック図である。図４に示すように、構造認識装置３０は、例えば、領域データ取得部３１と、文字認識データ取得部３２と、前処理部３３と、構造判定部３４と、構造データ出力部３５と、記憶部３６とを備える。

領域データ取得部３１は、領域分割装置１０から領域データ（文字領域データＭＤ、及び矩形領域データＫＤ）を取得する。文字領域データＭＤは、例えば、文字の領域における位置を示す座標と、文字の領域であることを示す識別情報とが対応付けられた情報である。矩形領域データＫＤは、例えば、矩形の領域における位置を示す座標と、矩形の領域であることを示す識別情報とが対応付けられた情報である。ここで、領域における位置を示す座標とは、例えば、領域の形状が四角形である場合、当該四角形の四つの頂点のうち、対角線上に位置する二つの頂点の座標である。或いは、領域における位置を示す座標は、四角形の四つの頂点のうち予め定めた特定の頂点（例えば、左下の頂点）の座標と、縦横それぞれの長さを示す情報であってもよい。領域データ取得部３１は、取得した領域データを、構造判定部３４に出力する。

文字認識データ取得部３２は、ＯＣＲ装置２０から文字認識データＭＮＤを取得する。文字認識データＭＮＤは、例えば、文字領域データに、その領域で認識された文字を示す文字認識結果が対応付けられた情報である。文字認識データ取得部３２は、取得した文字認識データＭＮＤを前処理部３３に出力する。

前処理部３３は、後述する構造判定部３４が、階層構造を判定し易くする目的で、判定処理に先立って、事前の処理（前処理）を行う。具体的に、前処理部３３は、文字認識データ取得部３２から取得した文字認識データＭＮＤを用いて、意味タグ情報を生成する。

意味タグ情報は、文字領域データに、その領域に示された文字の意味に応じたタグ（意味タグ）を付与した情報である。意味タグは、意味的に同等の文言であることを示す何らかの情報であればよい。意味タグは、例えば、意味的に同等の文言を代表させた文言であり、より具体的には、「お住まい」、「住所」、「おところ」、「ご住所」などの文言が、「住所」であることを示す情報である。前処理部３３が、意味タグ情報を生成することにより、意味的に同等の文言を、一つの文言に統一させることができる。したがって、文言を統一しない場合と比較して、後段の処理を簡素にでき、後段の構造判定部３４が階層構造を判定し易くなる。

前処理部３３は、文字認識データＭＮＤにおける文字認識結果を、変換テーブル３６０（図５参照）を用いて所定の文字に変換することにより意味タグ情報を生成する。変換テーブル３６０は、記憶部３６に記憶される情報であり、変換前の文字と、変換後の文字とが対応付けられた情報（テーブル）である。例えば、変換テーブル３６０の変換前の文字列には、帳票において頻出する文字であり、かつ表記にばらつきが有り得る文字が示される。変換前の文字列は、住所、おところ、ご住所などである。変換後の文字列には、意味に応じて設定した一つの文字、例えば「住所、おところ、ご住所」に対応する「住所」との文言が示される。

前処理部３３は、文字認識データＭＮＤにおける文字認識結果に基づいて変換テーブル３６０を参照する。前処理部３３は、変換テーブル３６０の変換前に示される文字に、文字認識結果が存在する場合、その変換前の文字に対応付けられた、変換後の文字を取得する。前処理部３３は、文字認識結果を、変換テーブル３６０に示される変換後の文字に変換する。前処理部３３は、文字領域データに、変換後の文字を対応づけることにより意味タグ情報を生成する。前処理部３３は、生成した意味タグ情報を構造判定部３４に出力する。なお、前処理部３３は、変換テーブル３６０の変換前に示される文字に、文字認識結果が存在しない場合、文字認識結果を変換することなく、文字領域データに、文字認識結果の文字を対応づけることにより意味タグ情報を生成する。

構造判定部３４は、矩形領域データ、及び意味タグ情報を用いて、矩形の階層構造を判定する。構造判定部３４は、構造判定モデル３６１を用いて矩形の階層構造を判定する。構造判定モデル３６１は、矩形領域データ、及び意味タグ情報と、矩形の親ＩＤとを対応付けた学習用データセットを、学習モデルに学習させた学習結果である。このような学習用データセットを学習させることにより、学習モデルは、入力された矩形領域データ、及び意味タグ情報に対し、矩形の親ＩＤを、精度よく出力（予測）できるように学習される。学習モデルは、例えば、ＲＮＮ（Recurrent Neural Network）である。ＲＮＮを用いることにより、順序づけられた系列情報に基づく学習を実行することができる。

構造判定部３４は、学習モデルにＲＮＮを用いる場合、構造判定モデル３６１に入力させるデータ（以下、入力データという）の順序が情報を持つように、入力データを生成する。構造判定部３４は、スキャン画像における着目矩形を選択する。着目矩形は、階層構造を判定したい矩形である。構造判定部３４は、着目矩形から所定の範囲（以下、第１範囲という）にある矩形領域データ（以下、近傍矩形群という）を抽出する。構造判定部３４は、着目矩形から所定の範囲（以下、第２範囲という）にある意味タグ情報（以下、近傍意味タグ群という）を抽出する。ここでの所定の範囲は、任意に設定されてよい。第１範囲と第２範囲とが互いに異なる範囲であってもよいし、同じ範囲であってもよい。また、第１範囲、第２範囲が予め定められた固定値であってもよいし、スキャン画像のサイズや、着目矩形の大きさに応じて、第１範囲、第２範囲が変動するようにしてもよい。

構造判定部３４は、着目矩形、近傍矩形群、近傍意味タグ群のそれぞれの代表座標（例えば、中心座標）をラスター順にソートしたデータを入力データとする。ここでのラスター順とは、二次元に配置された画素を読み込む（或いは、書込む）際における、所定の方向に沿った読み込み（書き込み）順序である。例えば、ラスター順は、画像における水平方向の左側から右側へ向かう方向に沿う順序であり、且つ垂直方向の上側から下側へ向かう方向である。しかしながら、ラスター順における所定の方向は、任意の方向であってよく、右側から左側へ向かう方向に沿う順序であってもよいし、下側から上側へ向かう方向に沿う順序であってもよい。

構造判定部３４は、生成した入力データを構造判定モデル３６１に入力させることにより得られる出力に基づいて、着目矩形の親ＩＤを判定する。構造判定部３４は、スキャン画像における全ての矩形を一つずつ着目矩形として選択し、上述した方法を繰り返し行うことにより、全ての矩形の親ＩＤを判定する。これにより、構造判定部３４は、矩形の階層構造を判定する。構造判定部３４は、判定した矩形の階層構造を示す情報、すなわち構造化データを構造データ出力部３５に出力する。構造データ出力部３５は、構造化データを出力する。記憶部３６は、変換テーブル３６０、及び構造判定モデル３６１を記憶する。

なお、上述した入力データを入力させて構造判定モデル３６１に矩形の階層構造を出力させる場合、学習段階においても、同様な方法で学習用データセットにおける入力データを生成する必要がある。すなわち、学習用の画像から着目矩形を選択し、選択した着目矩形に対する近傍矩形群、及び近傍意味タグ群を抽出する。そして、着目矩形、近傍矩形群、近傍意味タグ群のそれぞれの代表座標（例えば、中心座標）をラスター順にソートしたデータを入力データとする。入力データを学習モデルに入力することにより得られる出力が、その着目矩形の親ＩＤとなるように学習させることにより、構造判定モデル３６１が生成される。

図５は、実施形態に係る変換テーブル３６０の構成例を示す図である。変換テーブル３６０は、例えば、意味タグＩＤ、変換後、変換前などの各項目を備える。意味タグＩＤには、意味タグを一意に識別する識別情報が示される。変換後には変換後の文字が示される。変換前には変換前の文字列が示される。この例では、意味タグＩＤ（Ｅ０００１）に、変換後の文字として「氏名」、変換前の文字として「お名前」、「名前」、「おなまえ」が示されている。

図６は、実施形態に係る領域分割装置１０が行う処理を説明する図である。図６には、領域分割装置１０が判定した文字及び矩形それぞれの領域の例が示されている。領域分割装置１０は、図６に示すスキャン画像から、文字の領域Ｍ１～Ｍ６、及び矩形の領域Ｋ１～Ｋ５のそれぞれの領域を抽出する。領域Ｍ１は、「申込書」の文字が示されている領域である。領域Ｍ２は、「ご住所」の文字が示されている領域である。領域Ｍ３は、「都道府県」の文字が示されている領域である。領域Ｍ４は、「お名前」の文字が示されている領域である。領域Ｍ５は、「記入日」の文字が示されている領域である。領域Ｍ６は、「年月日」の文字が示されている領域である。このように、領域分割装置１０は、例えば、文字の領域を、矩形（四角形）の形状の領域として抽出するようにしてもよい。

領域Ｋ１は、領域Ｍ２を囲む矩形が示されている領域である。領域Ｋ２は、領域Ｍ３が枠内の右端に配置されるように、領域Ｍ３を囲む矩形が示されている領域である。領域Ｋ３は、領域Ｋ２の右側に配置される矩形が示されている領域である。領域Ｋ３は、領域Ｍ４を囲む矩形が示されている領域である。領域Ｋ５は、領域Ｋ４の右側に配置される矩形が示されている領域である。

図７は、実施形態に係る構造認識装置３０が行う処理を説明する図である。図７には、構造認識装置３０が判定した構造化データを、ツリー構造により可視化した例が示されている。図７において、領域Ｍ１＃は、文字の領域Ｍ１に示された文字が、前処理部３３により変換された後の領域を示している。領域Ｍ２＃～Ｍ６＃についても同様に、文字の領域Ｍ２～Ｍ６に示された文字が、前処理部３３により変換された後の領域を示している。

構造認識装置３０は、例えば、図６に示すスキャン画像における意味タグ情報、及び矩形領域データに基づいて、矩形の階層構造を判定する。構造認識装置３０は、領域Ｋ１の親（従属元）は、領域Ｋ２であると判定する。構造認識装置３０は、領域Ｋ４の親は、領域Ｋ２であると判定する。構造認識装置３０は、領域Ｋ５の親は、領域Ｋ３であると判定する。

図８は、実施形態に係るレイアウト変換の例を示す図である。図８に示すように、図６に示す縦長の帳票を、横長のレイアウトに変換することを考える。この場合、構造認識装置３０により判定された矩形の階層構造を維持しつつレイアウトを変更する。すなわち、領域Ｋ１の親が領域Ｋ２となるように、領域Ｋ４の親が領域Ｋ２となるように、レイアウトを変換する。こうすることで、元の帳票に記載されていた必要事項を過不足なく、且つ元の帳票と同等な感覚で必要事項を記載させることができるようにレイアウトの変換を行うことが可能となる。なお、この例に示すように、必要に応じて領域Ｋ６、Ｋ７を補うようにしてもよい。領域Ｋ６は、「日付」の文字を内包する矩形の領域である。領域Ｋ７は、「年月日」の文字を内包する矩形の領域である。例えば、領域Ｋ７の親が領域Ｋ６であると判定された場合、その判定結果を用いることにより、図８に示すような適切な変換を行うことが可能となる。

図９は、実施形態に係る構造認識システム１が行う処理の流れを示すシーケンス図である。領域分割装置１０は、スキャン画像データを取得し（ステップＳ１０）、スキャン画像における文字及び矩形の領域を判定することにより、文字と矩形それぞれの領域データを生成する（ステップＳ１１）。構造認識装置３０は、文字の領域データ、及びＯＣＲ装置２０により文字認識された文字認識データを用いて、意味タグ情報を生成する（ステップＳ１２）。

構造認識装置３０は、スキャン画像から着目矩形を選択する（ステップＳ１３）。構造認識装置３０は、着目矩形における近傍意味タグ群を取得し（ステップＳ１４）、近傍矩形群を取得する（ステップＳ１５）。構造認識装置３０は、着目矩形、近傍意味タグ群、及び近傍矩形群の代表座標をラスター順にソートすることにより入力データを生成する（ステップＳ１６）。構造認識装置３０は、入力データを構造判定モデル３６１に入力させることにより得られる出力に基づいて、着目矩形の親ＩＤを判定する（ステップＳ１７）。構造認識装置３０は、スキャン画像における全ての矩形について親ＩＤを判定したか否かを判断し（ステップＳ１８）、親ＩＤを判定していない矩形がある場合には、ステップＳ１３に戻り、親ＩＤを判定する処理を繰返す。

以上説明したように、実施形態の構造認識システム１は、画像データ取得部１１と、領域判定部１３と、構造判定部３４とを備える。画像データ取得部１１は、文字と矩形とを含むスキャン画像（「対象画像」の一例）における、画像データを取得する。領域判定部１３は、スキャン画像における文字と矩形のそれぞれの領域を判定する。構造判定部３４は、領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定する。これにより、実施形態の構造認識システム１では、矩形の階層構造を判定することができる。したがって、レイアウトの変更に必要な情報を取得することが可能である。

また、実施形態の構造認識システム１は、前処理部３３を更に備える。前処理部３３は、文字領域データを用いて、当該領域に示される文字認識結果（「第１文字」の一例）に対応する、意味に応じて設定される文字（「特定の第２文字」の一例）を含む意味タグ情報を生成する。これにより、実施形態の構造認識システム１では、文字領域データに示されている文字について、その意味に応じたタグ付けを行うことができ、構造判定部３４による判定の処理を、タグ付けを行わない場合と比較して、簡単にすることが可能である。

また、実施形態の構造認識システム１では、構造判定部３４は、構造判定モデル３６１（「学習済みモデル」の一例）を用いて、矩形の階層構造を判定する。構造判定モデル３６１は、文字と矩形とを含む学習画像における、意味タグ情報及び矩形領域データと、学習画像に含まれる矩形の構造化データと、を対応付けた学習用データセットを用いて、入力された画像に含まれる矩形の構造化データを出力するように学習されたモデルである。これにより、実施形態の構造認識システム１では、学習済みモデルにデータを入力させるという簡単な方法で、矩形の階層構造を認識することが可能である。

また、実施形態の構造認識システム１では、構造判定部３４は、スキャン画像において、着目矩形を選択し、着目矩形における近傍意味タグ群を取得し、着目矩形における近傍矩形群を取得し、取得した着目矩形、意味タグ群、及び近傍矩形群の位置に応じたソート（並べ替え）を行うことにより、構造判定モデル３６１に入力させる入力データの順序を決定する。これにより、実施形態の構造認識システム１では、入力データに意味（情報）を持たせることができ、ＲＮＮ系の学習モデルに基づく学習済みモデルを用いて、入力データの順序を考慮した予測、すなわち近傍にある文字や矩形との関係から、親ＩＤを予測させることができ、予測の精度向上が期待できる。

また、実施形態の構造認識装置３０は、領域データ取得部３１と構造判定部３４とを備える。領域データ取得部３１は、スキャン画像における文字と矩形とのそれぞれの領域に関する領域データを取得する。構造判定部３４は、領域データに基づいて、スキャン画像に含まれる矩形の階層構造を判定する。これにより、上述した効果と同様の効果を奏する。

上述した実施形態における構造認識システム１、及び構造認識装置３０の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…構造認識システム
１０…領域分割装置
１１…画像データ取得部
１２…変調画像生成部
１３…領域判定部
１４…領域データ出力部
１５…記憶部
１５０…領域判定モデル
２０…ＯＣＲ装置
３０…構造認識装置
３１…領域データ取得部
３２…文字認識データ取得部
３３…前処理部
３４…構造判定部
３５…構造データ出力部
３６…記憶部
３６０…変換テーブル
３６１…構造判定モデル

Claims

文字と矩形とを含む対象画像における画像データを取得する画像データ取得部と、
前記対象画像における文字と矩形のそれぞれの領域を判定する領域判定部と、
前記領域判定部によって判定された前記領域に関する領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定し、前記対象画像に含まれる矩形のうち、前記階層構造を判定する対象である着目矩形の従属元となる矩形又は文字を判定する構造判定部と、
を備える構造認識システム。
文字と矩形とを含む対象画像における画像データを取得する画像データ取得部と、
前記対象画像における文字と矩形のそれぞれの領域を判定する領域判定部と、
前記領域判定部によって判定された前記領域に関する領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定する構造判定部と、
文字の領域を示す前記領域データを用いて、当該領域に示される第１文字に対応する特定の第２文字を含む意味タグ情報を生成する前処理部と、
を備え、
前記構造判定部は、学習済みモデルを用いて前記対象画像に含まれる前記階層構造を判定し、
前記学習済みモデルは、文字と矩形とを含む学習画像における前記意味タグ情報及び矩形の領域を示す前記領域データと、前記学習画像に含まれる矩形の階層構造とを対応付けた学習用データセットを用いて、入力された画像に含まれる矩形の階層構造を出力するように学習されたモデルである、
構造認識システム。
文字の領域を示す前記領域データを用いて、当該領域に示される第１文字に対応する特定の第２文字を含む意味タグ情報を生成する前処理部を更に備え、
前記構造判定部は、前記意味タグ情報と、矩形の領域を示す前記領域データとに基づいて、前記階層構造を判定する、
請求項１に記載の構造認識システム。
前記構造判定部は、学習済みモデルを用いて前記階層構造を判定し、
前記学習済みモデルは、文字と矩形とを含む学習画像における前記意味タグ情報及び矩形の領域を示す前記領域データと、前記学習画像に含まれる矩形の前記階層構造とを対応付けた学習用データセットを用いて、入力された画像に含まれる矩形の階層構造を出力するように学習されたモデルである、
請求項３に記載の構造認識システム。
前記構造判定部は、前記対象画像において、前記階層構造を判定する着目矩形を選択し、前記選択した着目矩形の位置から所定の第１範囲内に位置する前記意味タグ情報である近傍意味タグ群を取得し、前記選択した着目矩形の位置から所定の第２範囲内に位置する矩形の前記領域データである近傍矩形群を取得し、取得した前記着目矩形、前記近傍意味タグ群、及び前記近傍矩形群の位置に応じた並べ替えを行うことにより、前記学習済みモデルに入力させる入力データの順序を決定する、
請求項２又は請求項４に記載の構造認識システム。
対象画像における文字と矩形とのそれぞれの領域に関する領域データを取得する領域データ取得部と、
前記領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定し、前記対象画像に含まれる矩形のうち、前記階層構造を判定する対象である着目矩形の従属元となる矩形又は文字を判定する構造判定部と、
を備える構造認識装置。
領域データ取得部が、対象画像における文字と矩形とのそれぞれの領域に関する領域データを取得し、
構造判定部が、前記領域データに基づいて、前記対象画像に含まれる矩形の階層構造を判定し、前記対象画像に含まれる矩形のうち、前記階層構造を判定する対象である着目矩形の従属元となる矩形又は文字を判定する、
構造認識方法。
コンピュータを、請求項６に記載の構造認識装置として動作させるためのプログラムであって、前記コンピュータを前記構造認識装置が備える各部として機能させるためのプログラム。