WO2023032802A1

WO2023032802A1 - アノテーション支援装置、アノテーション支援方法、アノテーション支援プログラム

Info

Publication number: WO2023032802A1
Application number: PCT/JP2022/032012
Authority: WO
Inventors: 真樹廣▲瀬▼; トーマスバロン; 恵小山; アーサーロバートソン; ケーリナライアン; ヌブリナイム; ハンナアリエルシマブクロ; 雪野河本; セルヒオバルブエナ; 香織松木; 哲也青山
Original assignee: 株式会社KPMG Ignition Tokyo
Priority date: 2021-09-01
Filing date: 2022-08-25
Publication date: 2023-03-09

Abstract

アノテーション支援装置１０は、ファイル入力部１１に入力されたアノテーション対象ファイルのレイアウトを判別するレイアウト判別部１３と、判別されたレイアウトに応じて、アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択部１４と、データ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供部１６と、を備える。データ指定モデルは、アノテーション対象ファイル中のデータを抽出するデータ抽出モデル２２Ａ～２２Ｃであり、ファイル提供部１６は、データ抽出モデル２２Ａ～２２Ｃによって抽出されたデータが追加されたアノテーション対象ファイルをアノテータに提供する。

Description

アノテーション支援装置、アノテーション支援方法、アノテーション支援プログラム

　本発明は、アノテーション支援装置等に関する。

　特許文献１には、学習データ作成支援システムが開示されている。訓練データまたは教師データとも表される学習データを作成するプロセスは、アノテーション（annotation）とも表される。アノテーションでは、アノテータによって対象ファイルにタグやメタデータ等の付加情報が付加される。付加情報が付加されたファイルは学習データとして、人工知能等によって実現される機械学習モデル等の訓練に利用される。

特開２０２０－１８７４０８号公報

　特許文献１のような学習データ作成支援システム（アノテーション支援装置）や、現在利用可能な各種のアノテーションツールを利用したとしても、アノテーションは依然として人間としてのアノテータによる人為的な作業である。あるアノテーションツールでは、人間としてのアノテータが、ファイル中の任意の領域を矩形のバウンディングボックス（Bounding Box）で囲み、当該矩形領域に関する機械学習のためのテキストデータ等の付加情報を入力する。一見すると単純な作業であるが、アノテーション対象ファイルの数や、各アノテーション対象ファイルにおいて囲むべき領域や入力すべき付加情報が増えると、アノテータの作業負担が増えて人為的なエラーやミスが引き起こされる恐れがある。

　本発明はこうした状況に鑑みてなされたものであり、アノテータの作業負担を軽減できるアノテーション支援装置等を提供することを目的とする。

　上記課題を解決するために、本発明のある態様のアノテーション支援装置は、アノテーション対象ファイルのレイアウトを判別するレイアウト判別部と、判別されたレイアウトに応じて、アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択部と、データ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供部と、を備える。

　この態様によれば、レイアウトに応じて選択されたデータ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを提供することで、アノテータの作業負担を軽減できる。

　本発明の別の態様は、アノテーション支援方法である。この方法は、アノテーション対象ファイルのレイアウトを判別するレイアウト判別ステップと、判別されたレイアウトに応じて、アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択ステップと、データ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供ステップと、を備える。

　なお、以上の構成要素の任意の組合せや、これらの表現を方法、装置、システム、記録媒体、コンピュータプログラム等に変換したものも、本発明に包含される。

　本発明によれば、アノテータの作業負担を軽減できる。

アノテーション支援装置を含む情報処理システムの概要を模式的に示す。アノテーション支援装置の機能ブロック図である。ファイル入力部に入力されるＰＤＦファイルの例を示す。ファイル提供部がアノテータ端末を通じてアノテータに対して表示または提示させるアノテーション画面の例を示す。ファイル提供部がアノテータ端末を通じてアノテータに対して表示または提示させるアノテーション画面の例を示す。図４のアノテーション画面の変形例を示す。図４および／または図６のアノテーション画面の更なる変形例を示す。法律文書中のデータの強調に本発明を適用した変形例を示す。

　以下では、図面を参照しながら、本発明を実施するための形態（以下では実施形態とも表す）について詳細に説明する。説明および／または図面においては、同一または同等の構成要素、部材、処理等に同一の符号を付して重複する説明を省略する。図示される各部の縮尺や形状は、説明の簡易化のために便宜的に設定されており、特に言及がない限り限定的に解釈されるものではない。実施形態は例示であり、本発明の範囲を何ら限定するものではない。実施形態に記載される全ての特徴やそれらの組合せは、必ずしも本発明の本質的なものであるとは限らない。

　本実施形態に係るアノテーション支援装置は、アノテータの作業負担を軽減することを目的とする。本実施形態ではアノテータを人間として説明するが、アノテータは人工知能等によって構成されるアノテーション装置でもよい。

　図１は、本発明の実施形態に係るアノテーション支援装置を含む情報処理システムの概要を模式的に示す。ここで例示される情報処理システムは、税理士法人や会計事務所が顧客に対して税務サービスや会計サービスを提供する際に利用される。本図やフローチャート等の他の図において「Ｓ」はステップまたは処理を意味する。Ｓ１では、請求書、銀行取引明細書、不動産管理（PM: Property Management）レポート、信託レポート、銀行通帳、還付通知、受取利息通知、外国送金通知、利率通知、領収書等の、税務処理や会計処理の対象となる証憑または電子文書が顧客ポータルにおいて電子的に入力される。

　このように情報処理システムまたはアノテーション支援装置に電子的に入力された電子文書を本明細書ではファイルと総称する（特に、アノテーション支援装置に入力された電子文書をアノテーション対象ファイルと表すこともある）。図１の情報処理システムに入力されるファイルは、表計算ファイルとそれ以外のファイルに大別される。表計算ファイルは、行列状に配置されたセルにデータが記入されたファイルである。それ以外のファイルは、表計算ファイル以外のフォーマットの任意のファイルであり、典型的にはＰＤＦファイルである。本実施形態ではＰＤＦファイルを中心に説明するが、本発明はワープロファイル、プレゼンテーションファイル、画像ファイル、テキストファイル等の任意のフォーマットのファイルに適用できる。また、本発明はこれらのファイルにそのまま適用してもよいが、これらのファイルをＰＤＦファイルに変換した上で適用してもよい。

　Ｓ２では、Ｓ１で入力されたファイルが、表計算ファイルとＰＤＦファイルを含むそれ以外のファイルに分類される。Ｓ３では、Ｓ２で分類された表計算ファイル中の各セルから、税務処理や会計処理に必要なデータが自動的に抽出される。本明細書では詳細に説明しないが、表計算ファイル中の一および／または複数のセル番号を指定することで、単一セルおよび／または矩形範囲内のセル群からデータを効率的に抽出できる。Ｓ４では、ＯＣＲ等の文字認識技術によってＳ２で分類された表計算ファイル以外のファイル中の文字データが認識され、その中から税務処理や会計処理に必要なデータが自動的に抽出される。本発明は主にＳ４に関し、詳細については後述する。

　Ｓ５では、Ｓ３およびＳ４で自動的に抽出された税務処理や会計処理に必要なデータが、Ｓ１で入力されたファイルと併せてリポジトリに格納および保持される。Ｓ６およびＳ７では、Ｓ５で保持されたデータおよび／またはファイルに基づいて、各取引の自動仕訳処理が実行される。Ｓ８では、Ｓ５で保持されたデータおよび／またはファイルに基づいて、各取引における金銭的支出が資本的支出（CAPEX: Capital Expenditure）と運営費（OPEX: Operating Expense）に自動的に分類される。Ｓ９では、Ｓ７による自動仕訳結果およびＳ８によるCAPEX/OPEX自動分類結果を、総勘定元帳や固定資産台帳等の会計帳簿に記録する。

　図２は、図１におけるＳ４のデータ抽出処理の前段階としてのファイルのアノテーションに関する本発明の実施形態に係るアノテーション支援装置１０の機能ブロック図である。アノテーション支援装置１０は、ファイル入力部１１と、文字認識部１２と、レイアウト判別部１３と、モデル選択部１４と、アノテーション支援情報付加部１５と、ファイル提供部１６と、アノテータ入力受付部１７を備える。これらの機能ブロックは、コンピュータの中央演算処理装置、メモリ、入力装置、出力装置、コンピュータに接続される周辺機器等のハードウェア資源と、それらを用いて実行されるソフトウェアの協働により実現されてもよい。コンピュータの種類や設置場所は問わず、上記の各機能ブロックは、単一のコンピュータのハードウェア資源で実現してもよいし、複数のコンピュータに分散したハードウェア資源を組み合わせて実現してもよい。

　ファイル入力部１１には、アノテーション支援装置１０によるアノテーション支援の対象である表計算ファイル以外のアノテーション対象ファイルが入力される。前述のように以下では、ファイル入力部１１にＰＤＦファイルが入力される例を説明する。図３は、ファイル入力部１１に入力されるＰＤＦファイルの例を示す。これは「株式会社にほへと」が「いろは株式会社」に宛てて発行した紙の「納品書兼請求書」を、スキャナ等で読み取ってＰＤＦファイル化したものである。「2020年5月1日」付けで「株式会社にほへと」が「いろは株式会社」に納品した品番「123-4567」の製品について、税込で「3,300」円の代金を「いろは株式会社」に請求するものである。

　文字認識部１２は、ファイル入力部１１に入力されたＰＤＦファイル中の文字を認識する。ＰＤＦファイルは機械可読（machine-readable）すなわちコンピュータ等が文字を読み取り可能な態様で生成されることも多く、そのような場合には文字認識部１２がＰＤＦファイルから直接的に文字を読み取ると共に、それぞれの文字のＰＤＦファイル中の位置を認識する。ファイル入力部１１に入力されたＰＤＦファイルが機械可読ではない場合等には、文字認識部１２がＯＣＲ（Optical Character Recognition：光学文字認識）等の文字認識技術によって、ＰＤＦファイル中で文字を表す画像データを文字データに変換し、それぞれの文字データのＰＤＦファイル中の位置を認識する。

　文字認識部１２はＰＤＦファイル中の全ての文字とそれぞれの位置を認識または抽出できるが、図３では三つの文字Ｃ１～Ｃ３のみを例示する。「いろは」という第１の文字Ｃ１は、その位置を示す左上角Ｐ１１の座標および右下角Ｐ１２の座標と共に文字認識部１２によって抽出される。ＰＤＦファイル中の二次元座標系における左上角Ｐ１１の座標を（ｘ１，ｙ１）とし、右下角Ｐ１２の座標を（ｘ２，ｙ２）とすれば、「いろは」という第１の文字Ｃ１は、（ｘ１，ｙ１）および（ｘ２，ｙ２）によって画定される矩形領域内に記入されている。

　このように、アノテーション支援装置１０による抽出対象データである「いろは」等の文字の位置は、左上角と右下角の座標の組が定める矩形領域情報（ｘ１，ｙ１，ｘ２，ｙ２）によって表される。本実施形態では、このような矩形領域による文字位置の表現方法を主に用いるが、文字が記入される位置の表現方法はこれに限られない。例えば、文字の中心または重心の一つの座標、具体的には上記の表現を用いて（（ｘ１＋ｘ２）／２，（ｙ１＋ｙ２）／２）によって文字の位置を代表的に表してもよいし、文字の開始位置（典型的には左端の位置）の一つの座標、具体的には上記の表現を用いて（ｘ１，（ｙ１＋ｙ２）／２）によって文字の位置を代表的に表してもよいし、文字の中心の座標、幅Ｗ（ｘ２－ｘ１）、高さＨ（ｙ２－ｙ１）の組が定める矩形領域情報によって文字の位置を表してもよいし、文字の中心の座標および半径ｒの組が定める円形領域情報によって文字の位置を表してもよい。

　「株式会社」という第２の文字Ｃ２は、その位置を示す左上角Ｐ２１の座標および右下角Ｐ２２の座標と共に文字認識部１２によって抽出される。「いろは」という第１の文字Ｃ１と「株式会社」という第２の文字Ｃ２は、後述するレイアウト判別部１３によるレイアウト判別モデルに基づくレイアウト判別処理、および／または、後述するアノテーション支援情報付加部１５によるデータ抽出モデルに基づくアノテーション支援情報付加処理において、「いろは株式会社」という法人名を表す一連の文字または文言として認識されてもよい。

　「請求番号：A1234-901」という第３の文字Ｃ３は、その位置を示す左上角Ｐ３１の座標および右下角Ｐ３２の座標と共に文字認識部１２によって抽出される。第３の文字Ｃ３には「請求番号」および「A1234-901」という複数の異なる情報が含まれているが、位置が互いに近接しているために一般的なＰＤＦファイル生成ツールやＯＣＲツールでは一つの文字として認識されてしまうことも多い。一方で、図１の税務処理や会計処理では「A1234-901」という請求書の具体的な番号のみが必要になる。そこで、後述するレイアウト判別部１３によるレイアウト判別モデルに基づくレイアウト判別処理、および／または、後述するアノテーション支援情報付加部１５によるデータ抽出モデルに基づくアノテーション支援情報付加処理において、このような複数の情報を含む文字が個々のデータに分離されてもよい。

　レイアウト判別部１３は、文字認識部１２によって認識された文字の内容および／または配置に基づいて、ファイル入力部１１に入力されたＰＤＦファイル（アノテーション対象ファイル）のレイアウトを判別する。レイアウトはファイルの基本的な属性を表し、用途、種別、様式、書式、体裁、スタイル、テンプレート、フォーマット、フレームワーク、型、配置、配列等とも言い換えられる。図１の税務処理や会計処理に用いられる図３のＰＤＦファイルの例では、文書種別（「納品書」および／または「請求書」）、相手方（税務や会計サービスの利用者である「いろは株式会社」または「株式会社にほへと」）、ページ数、言語、機械可読性（machine readability）等の最小限の情報によってレイアウトが判別または特定される。

　レイアウト判別部１３は、モデル格納部２０に格納されているレイアウト判別モデル２１に基づいて、ファイル入力部１１に入力されたアノテーション対象ファイルのレイアウトを判別してもよい。具体的には、レイアウト判別部１３は、ファイル入力部１１に入力されたアノテーション対象ファイルが取りうる複数のレイアウト（例えば、後述するデータ抽出モデル２２Ａ～２２Ｃに対応するレイアウトＡ～Ｃ）の中から、レイアウト判別モデル２１に基づいて判別される一のレイアウトを選択する。レイアウト判別モデル２１は、正しいレイアウトの情報が付加された各種のアノテーション済ファイルを訓練データとして、網羅的に訓練された機械学習モデルである。

　モデル選択部１４は、レイアウト判別部１３によって判別されたレイアウトに応じて、ファイル入力部１１に入力されたアノテーション対象ファイル中のデータを指定するデータ指定モデルを選択する。本実施形態におけるデータ指定モデルは、ファイル入力部１１に入力されたアノテーション対象ファイル中のデータを抽出するデータ抽出モデルである。データ抽出モデルは、抽出すべきデータの内容（典型的には文字）、位置（典型的には領域）、属性等の情報が付加された各種のレイアウトのファイルを訓練データとして、網羅的に訓練された機械学習モデルである。

　本実施形態の例では、レイアウト判別部１３によって判別されるアノテーション対象ファイルのレイアウトに対応して、異なる複数のデータ抽出モデル２２Ａ、２２Ｂ、２２Ｃがモデル格納部２０に格納されている。例えば、データ抽出モデル２２Ａは「レイアウトＡ」に対応し、データ抽出モデル２２Ｂは「レイアウトＢ」に対応し、データ抽出モデル２２Ｃは「レイアウトＣ」に対応する。なお、後述するように、同じレイアウト（例えば、レイアウトＡ）に対して、異なる複数のデータ抽出モデルが設けられてもよい。つまり、レイアウト判別部１３によって判別されるアノテーション対象ファイルのレイアウトと、モデル格納部２０に格納されているデータ抽出モデル（データ指定モデル）の関係は、「１対１」または「１対Ｎ」（但し、Ｎは２以上の自然数）である。換言すれば、複数のデータ抽出モデルのそれぞれは、複数のレイアウトのいずれか一つにマッピングされる。また、データ抽出モデルの総数は、レイアウトの総数以上である。

　図３の例におけるアノテーション対象ファイルのレイアウトが「レイアウトＡ」であるとレイアウト判別部１３によって判別された場合、モデル選択部１４は当該「レイアウトＡ」に対応するデータ抽出モデル２２Ａを選択する。このデータ抽出モデル２２Ａは、例えば、図３において「いろは」という第１の文字Ｃ１と「株式会社」という第２の文字Ｃ２が統合された「いろは株式会社」という文字データと、その矩形領域データ（第１の文字Ｃ１の左上角Ｐ１１を左上角とし、第２の文字Ｃ２の右下角Ｐ２２を右下角とする矩形領域を表すデータ）を抽出する。データ抽出モデル２２Ａは、抽出した「いろは株式会社」が該当する「相手方」という属性データ（メタデータまたは後述するアノテーション支援情報）を付加してもよい。また、データ抽出モデル２２Ａは、例えば、図３において「請求番号：A1234-901」という第３の文字Ｃ３から分離した「A1234-901」という文字データと、その矩形領域データ（第３の文字Ｃ３の矩形領域を左右に分割したもののうち「A1234-901」を包含する右側の小矩形領域を表すデータ）を抽出する。データ抽出モデル２２Ａは、抽出した「A1234-901」が該当する「請求書番号」という属性データ（メタデータまたは後述するアノテーション支援情報）を付加してもよい。

　アノテーション支援情報付加部１５は、モデル選択部１４によって選択されたデータ抽出モデル２２Ａ（データ指定モデル）を、ファイル入力部１１に入力されたアノテーション対象ファイルに適用し、被抽出データ（被指定データ）自体またはそれに関するアノテーション支援情報を当該アノテーション対象ファイルに付加する。図３の例では、アノテーション支援情報付加部１５が、第１の文字Ｃ１および第２の文字Ｃ２に由来する「いろは株式会社」という文字データ（被抽出データ）と、その矩形領域データおよび属性データ（相手方）を、アノテーション対象ファイルにメタデータまたはアノテーション支援情報として追加する。また、アノテーション支援情報付加部１５は、第３の文字Ｃ３に由来する「A1234-901」という文字データ（被抽出データ）と、その矩形領域データおよび属性データ（請求書番号）を、アノテーション対象ファイルにメタデータまたはアノテーション支援情報として追加する。なお、これらの被抽出データ（被指定データ）、位置データ（領域データ）、属性データ等のアノテーション支援情報の一部または全部を、アノテーション対象ファイルと関連付けられた個別ファイルとして保存してもよい。

　ファイル提供部１６は、アノテーション支援情報付加部１５がデータ抽出モデル２２Ａによって抽出したデータ（データ指定モデルによるデータの指定に関する情報）が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行う人間または人工知能としてのアノテータに提供する。アノテータが人間の場合のファイル提供部１６は、アノテータが使用するコンピュータ等のアノテータ端末３０に対して、アノテーション支援情報が付加されたアノテーション対象ファイルを提供する。

　図４は、ファイル提供部１６がアノテータ端末３０を通じてアノテータに対して表示または提示させるアノテーション画面の例を示す。アノテーション画面は、ファイル表示領域３１と、レイアウト表示領域３２と、抽出データ表示領域３３と、その他入力領域３４を備える。ファイル表示領域３１は、ファイル入力部１１に入力されたアノテーション対象ファイルの少なくとも一部を表示する。図４の例では、図３の例と異なる「ABCD Tax Corporation」が発行した請求書の一部がファイル表示領域３１に表示されている。レイアウト表示領域３２、抽出データ表示領域３３、その他入力領域３４は、ファイル表示領域３１に表示されているアノテーション対象ファイルに関して、アノテータによる入力を受け付ける入力領域を構成する。

　レイアウト表示領域３２には、レイアウト判別部１３がレイアウト判別モデル２１に基づいて判別したアノテーション対象ファイルのレイアウトに関する情報の少なくとも一部が、アノテータの入力によらずに予め入力されている。このように、ファイル提供部１６は、データ指定モデル（データ抽出モデル２２Ａ）によるデータの指定（抽出）に関する情報が追加されたアノテーション対象ファイルと共に、レイアウト判別部１３によって判別されたレイアウトに関する情報をアノテータに提供する。

　具体的に図４の例では、レイアウト判別部１３がアノテーション対象ファイルのレイアウトについて判別した、レイアウト名「0010 - Invoice_ABCD_1p_EN_after2010」、文書種別「Invoice」、相手方「3- ABCD Tax Corporation」、開始ページ「1」、終了ページ「1」、言語「English」、機械可読性「Readable」が、レイアウト表示領域３２に表示されている。なお、レイアウト表示領域３２の上方には、アノテーション対象ファイルのファイル名「200121_Invoice_#010000.pdf」が表示されている。

　これらのレイアウト関連情報が全て正しければ、アノテータはアノテーション対象ファイルのレイアウトに関して何も入力しなくてよい。一方、これらのレイアウト関連情報の少なくとも一部が誤っている場合、アノテータはアノテータ端末３０におけるキーボードやマウス等の入力デバイスを通じて訂正できる。このようなアノテータによる訂正入力情報は、アノテーション支援装置１０のアノテータ入力受付部１７によって受け付けられる。

　なお、レイアウト判別部１３が判別したレイアウトが根本的に誤っている場合（例えば、レイアウト名、文書種別、相手方等の基本情報が正しくない場合）、後述するサンプル保存部によって保存されたサンプル等も参照しながら、アノテータが正しいレイアウトをアノテーション支援装置１０に教示してもよい。例えば、レイアウト判別部１３が誤って判別した「レイアウトＡ」の代わりに、アノテータは正しい「レイアウトＢ」をアノテーション支援装置１０に教示する。この場合、モデル選択部１４、アノテーション支援情報付加部１５、ファイル提供部１６は、アノテータによって新たに教示された「レイアウトＢ」に基づいて前述の処理を再び実行する。例えば、モデル選択部１４は「レイアウトＢ」に対応するデータ抽出モデル２２Ｂを選択し直す。また、アノテータ入力受付部１７によって受け付けられたアノテータによる正しいレイアウトの教示内容は、レイアウト判別モデル２１の再訓練または追加的訓練のための訓練データまたは学習データとしてモデル格納部２０にフィードバックされる。

　抽出データ表示領域３３には、アノテーション支援情報付加部１５がデータ抽出モデル２２Ａに基づいて抽出したアノテーション対象ファイル中の各種の文字データが、それぞれの属性データと共に、アノテータの入力によらずに予め入力されている。

　具体的に図４の例では、属性「Invoice sender」（請求書発行元）について抽出された文字データ「ABCD Tax Corporation」、属性「Invoice issue date」（請求書発行日）について抽出された文字データ「December 25, 2019」、属性「Invoice description」（請求書概要）について抽出された文字データ「The followings is a statement of our charges…」、属性「Total invoice amount」（合計請求金額）について抽出された文字データ「1,100,000」、属性「Currency」（通貨）について抽出された文字データ「\」、属性「Consumption tax」（消費税）について抽出された文字データ「100,000」、属性「Invoice number」（請求書番号）について抽出された文字データ「4825110606」が、抽出データ表示領域３３に表示されている。なお、異なるアノテーション対象ファイルにおける文字データの表記を統一するために、抽出データ表示領域３３に表示される各文字データの表記は同様の意味の別表記に変換されてもよい。例えば、「December 25, 2019」の代わりに「2019年12月25日」と表示されてもよいし、「1,100,000」の代わりに「百十万」と表示されてもよいし、「\」の代わりに「JPY」と表示されてもよい。

　なお、ある属性（例えば「Invoice sender」）について、データ抽出モデル２２Ａが文字データ等の複数の候補（例えば「ABCD Tax Corporation」と「ABCO Tax Corporation」）を抽出した場合、これらの複数の候補データが抽出データ表示領域３３に並列的または選択的に表示されてもよい。アノテータは、抽出データ表示領域３３で提示された複数の候補データのうち最適な一の候補データを、プルダウンやドロップダウンリスト等の画面上の任意の選択手段によって選択できる。但し、複数の候補データのいずれかについて、図６や図７において後述する信頼度が極めて高い（例えば、80%超）場合、当該候補データが正しいデータである可能性が高く、アノテータによって選択される可能性が高いため、抽出データ表示領域３３には当該データのみを表示し、他の（より信頼度が低い）候補データは表示しなくてもよい。この場合、高信頼度閾値（例えば、80%）を超える高信頼度の候補データについては、アノテータの選択作業が不要になる。一方、複数の候補データのうち信頼度が最も高いものでも高信頼度閾値以下の場合は、前述のように複数の候補データが抽出データ表示領域３３でアノテータに対して提示される。但し、信頼度が極めて低い候補データ（例えば、30%等の低信頼度閾値以下の候補データ）は誤ったデータである可能性が高く、アノテータによって選択される可能性が低いため、当該候補データは抽出データ表示領域３３における提示対象から除外されるのが好ましい。

　これらの抽出された文字データが全て正しければ、アノテータはアノテーション対象ファイルの被抽出データ（図４では「Standard Items」とも表されている）に関して何も入力しなくてよい（但し、確認のために各項目の冒頭に設けられるチェックボックスへのチェック入力が求められてもよい）。一方、これらの被抽出データの少なくとも一部が誤っている場合、アノテータはアノテータ端末３０におけるキーボードやマウス等の入力デバイスを通じて訂正できる。このようなアノテータによる訂正入力情報は、アノテーション支援装置１０のアノテータ入力受付部１７によって受け付けられる。

　図５に示されるように、アノテータが訂正入力のために「Invoice sender」または「ABCD Tax Corporation」の入力領域を選択すると（模式的に白黒反転されている）、当該入力領域にアノテーション支援情報付加部１５によって予め入力されていた文字データ「ABCD Tax Corporation」の基となったファイル表示領域３１中の領域（位置）が表示される。更に、図５において模式的に示されるように、訂正入力対象の属性「Invoice sender」に関するファイル表示領域３１および抽出データ表示領域３３の該当領域が互いに線で結ばれて両者の対応関係が明示される。この対応関係を視認しながら、アノテータは効率的に訂正入力を行える。例えば、抽出データ表示領域３３の文字データが「AAAA Tax Corporation」のように誤っていた場合、アノテータは当該抽出データ表示領域３３に「ABCD Tax Corporation」という正しい文字データを直接的に入力できる。また、ファイル表示領域３１において「ABCD Tax Corporation」の文字を囲んでいるべき矩形領域（バウンディングボックス）の位置、大きさ、形状等が正しくない場合、アノテータはファイル表示領域３１において当該バウンディングボックスを直接的に調整できる。

　このように、データ抽出モデル２２Ａ（データ指定モデル）によるデータの抽出（指定）に基づいて、ファイル表示領域３１内の特定の情報と、当該情報に対応する抽出データ表示領域３３（入力領域）内の特定の情報を互いに関連付ける情報（図５の例では両者を結ぶ線）が追加されたアノテーション画面を参照することで、アノテータは効率的にアノテーション作業を行える。なお、ファイル表示領域３１および抽出データ表示領域３３を関連付ける情報は線に限らず、例えば、対応する色、フォント、模様等の共通または類似の強調情報（強調表示）または注釈等を関連する二つの領域に付加してもよい。また、このようなファイル表示領域３１および抽出データ表示領域３３を関連付ける情報は、アノテータの訂正入力や確認入力（チェックボックスへのチェック入力）のための選択によらずにアノテーション画面に常に表示されてもよい。図５の例では、アノテータによって選択されていない項目（Standard Items）に関するファイル表示領域３１および抽出データ表示領域３３の対応関係が、点線によってアノテーション画面上に表示されている。

　その他入力領域３４には、アノテータによるアノテーション内容の確認または訂正が完了したことを入力可能なチェックボックスとしてのアノテーション完了入力部と、アノテーション済の当該ファイルを他のアノテーション対象ファイルのアノテーション時のサンプルまたはリファレンスとして保存するためのチェックボックスとしてのサンプル保存部が設けられる。その他入力領域３４におけるアノテータの入力情報も、アノテーション支援装置１０のアノテータ入力受付部１７によって受け付けられる。

　アノテータ入力受付部１７は、ファイル入力部１１に入力されたアノテーション対象ファイルのアノテーションに関する、アノテータ端末３０を通じたアノテータによる各種の入力を受け付ける。アノテーションが完了したファイル、すなわち、図４および図５の例では、抽出データ表示領域３３において文字データが入力されている全ての項目のチェックボックスおよびその他入力領域３４におけるアノテーション完了入力部のチェックボックスにチェックが入力されたアノテーション対象ファイル（アノテーション済ファイル）は、人工知能等によって実現される機械学習モデル等の訓練に利用される訓練データとして訓練データ格納部４０に格納される。訓練データ格納部４０には多数の訓練データ（アノテーション済ファイル４１～４４）が格納されている。

　また、レイアウト判別部１３がレイアウト判別モデル２１に基づいて判別したアノテーション対象ファイルのレイアウトに関するレイアウト表示領域３２の情報の少なくとも一部をアノテータが訂正した場合、その訂正入力情報はレイアウト判別モデル２１の再訓練または追加的訓練のための訓練データまたは学習データとしてモデル格納部２０にフィードバックされる。このように、アノテータによる訂正作業に基づいてレイアウト判別モデル２１が改善されるため、将来のアノテータによる訂正作業の発生頻度を低減できる。

　同様に、アノテーション支援情報付加部１５がデータ抽出モデル２２Ａによるデータの抽出に関して付加した、抽出データ表示領域３３および／またはファイル表示領域３１の情報（文字データ、領域データ、属性データ等）の少なくとも一部をアノテータが訂正した場合、その訂正入力情報はデータ抽出モデル２２Ａの再訓練または追加的訓練のための訓練データまたは学習データとしてモデル格納部２０にフィードバックされる。このように、アノテータによる訂正作業に基づいて各レイアウトに対応する各データ抽出モデル２２Ａ～２２Ｃが改善されるため、将来のアノテータによる訂正作業の発生頻度を低減できる。

　以上のような実施形態によれば、アノテーション支援情報付加部１５によってアノテーション支援情報が付加されたアノテーション対象ファイルがアノテータに提供されるため、アノテータの作業負担を軽減できるだけでなく、アノテーションの正確性も高められる。

　また、アノテーション対象ファイル中で抽出すべき項目は、データ抽出モデル２２Ａ～２２Ｃにおいて実質的に漏れなく設定されているため、アノテータによる人為的な抽出漏れを効果的に防止できる。また、データ抽出モデル２２Ａ～２２Ｃにおいて設定されていない不要な項目が無駄にアノテーションされることもなくなる。

　以上、本発明を実施形態に基づいて説明した。例示としての実施形態における各構成要素や各処理の組合せには様々な変形例が可能であり、そのような変形例が本発明の範囲に含まれることは当業者にとって自明である。

　図６は、図４のアノテーション画面の変形例を示す。レイアウト表示領域３２には、レイアウト判別部１３がレイアウト判別モデル２１に基づいて判別したアノテーション対象ファイルのレイアウトについての信頼度が表示される。同様に、抽出データ表示領域３３には、アノテーション支援情報付加部１５がデータ抽出モデル２２Ａ（データ指定モデル）に基づいて抽出（指定）した各データについての信頼度が表示される。このように、ファイル提供部１６は、レイアウト判別モデル２１および／またはデータ抽出モデル２２Ａによる信頼度が追加されたアノテーション対象ファイルをアノテータに提供する。アノテータは、これらの信頼度の数値を視認しながら、効率的に各アノテーション項目の確認および／または訂正を行える。ファイル提供部１６は、信頼度の数値が低い（図示の例では「50%」以下の）アノテーション項目を太枠等で強調表示して、アノテータの注意を促してもよい。

　なお、前述のように、ある属性（例えば「Invoice sender」）についてデータ抽出モデル２２Ａが抽出した複数の候補データ（例えば「ABCD Tax Corporation」と「ABCO Tax Corporation」）が抽出データ表示領域３３に表示される場合、当該各候補データの信頼度が併せて表示されることが好ましい（例えば「ABCD Tax Corporation 80%」と「ABCO Tax Corporation 35%」）。アノテータは、これらの併記された信頼度を参照しながら、効率的に最適な一の候補データを選択できる。

　図７は、図４および／または図６のアノテーション画面の更なる変形例を示す。本図ではファイル表示領域３１が省略されている。本変形例では、モデル選択部１４が、レイアウト判別部１３によって判別されたアノテーション対象ファイルのレイアウトに応じて、複数のデータ指定モデルを選択する。例えば、モデル選択部１４は、レイアウト判別部１３によって判別された「レイアウトＡ」に対応する二つの「データ抽出モデルＡ１」および「データ抽出モデルＡ２」を選択する。ファイル提供部１６は、二つの「データ抽出モデルＡ１」および「データ抽出モデルＡ２」によるデータの抽出（指定）に関する情報が追加されたアノテーション対象ファイルをアノテータに提供する。具体的には図７に示されるように、ファイル提供部１６がアノテータに提示するアノテーション画面の抽出データ表示領域３３において、「データ抽出モデルＡ１」（第１のデータ指定モデル）に基づく第１のデータ抽出結果と、「データ抽出モデルＡ２」（第２のデータ指定モデル）に基づく第２のデータ抽出結果が並べて表示される。

　アノテータは、これらの複数のデータ抽出結果をアノテーション画面上で比較し、各アノテーション項目の前述の信頼度等も参照しながら、採用すべきデータ指定モデル（データ抽出モデル）を選択する。この場合のアノテータ入力受付部１７は、複数のデータ指定モデルのうち一のデータ指定モデルのアノテータによる選択を受け付ける選択受付部として機能する。

　図８は、契約書等の法律文書中のデータの強調（ハイライト）に本発明を適用した変形例を示す。図８Ａは、アノテーション対象ファイルとしての法律文書の例を示し、図８Ｂは、アノテーション完了後の当該法律文書（訓練データ）の例を示す。図８Ｂのアノテーション例では、法律文書中の主要項目（契約名、契約日、契約当事者（貸主および借主）、契約対象（物件名）、所在（物件所在）等）が、その項目名（属性データ）と共に太枠で強調表示されている。

　このように、本変形例においてモデル格納部２０に格納されてモデル選択部１４によって選択されるデータ指定モデルは、アノテーション対象ファイル中の主要データを強調するデータ強調モデルである。そして、ファイル提供部１６は、データ強調モデルによるデータの強調に関する情報が追加された図８Ｂのようなアノテーション対象ファイルおよび／またはアノテーション画面をアノテータに提供する。アノテータは、強調された項目の属性（項目名）や領域（位置）を確認し、誤りがある場合は訂正してアノテーション作業を行う。

　なお、図８のような法律文書に対しても、図１～図７のような税務、会計、金融に関する文書と同様に、アノテーション対象ファイル中のデータを抽出するデータ抽出モデルが適用されてもよい。例えば、アノテーション対象ファイルとしての契約書に適用されたデータ抽出モデルは、各契約当事者の主要な権利や義務に関する文字データを当該契約書から抽出してもよい。

　なお、実施形態で説明した各装置や各方法の構成、作用、機能は、ハードウェア資源またはソフトウェア資源によって、あるいは、ハードウェア資源とソフトウェア資源の協働によって実現できる。ハードウェア資源としては、例えば、プロセッサ、ＲＯＭ、ＲＡＭ、各種の集積回路を利用できる。ソフトウェア資源としては、例えば、オペレーティングシステム、アプリケーション等のプログラムを利用できる。

　本発明は、アノテーション支援装置等に関する。

　１０　アノテーション支援装置、１１　ファイル入力部、１２　文字認識部、１３　レイアウト判別部、１４　モデル選択部、１５　アノテーション支援情報付加部、１６　ファイル提供部、１７　アノテータ入力受付部、２０　モデル格納部、３０　アノテータ端末、３１　ファイル表示領域、３２　レイアウト表示領域、３３　抽出データ表示領域、４０　訓練データ格納部。

Claims

　アノテーション対象ファイルのレイアウトを判別するレイアウト判別部と、
　判別されたレイアウトに応じて、前記アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択部と、
　前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供部と、
　を備えるアノテーション支援装置。
　前記データ指定モデルは、前記アノテーション対象ファイル中のデータを抽出するデータ抽出モデルであり、
　前記ファイル提供部は、前記データ抽出モデルによって抽出されたデータが追加された前記アノテーション対象ファイルを前記アノテータに提供する、
　請求項１に記載のアノテーション支援装置。
　前記データ指定モデルは、前記アノテーション対象ファイル中のデータを強調するデータ強調モデルであり、
　前記ファイル提供部は、前記データ強調モデルによるデータの強調に関する情報が追加された前記アノテーション対象ファイルを前記アノテータに提供する、
　請求項１または２に記載のアノテーション支援装置。
　前記モデル選択部は、複数の前記データ指定モデルのうち、判別されたレイアウトに応じた一のデータ指定モデルを選択する、請求項１または２に記載のアノテーション支援装置。
　前記ファイル提供部は、前記アノテーション対象ファイルの少なくとも一部を表示するファイル表示領域と、当該少なくとも一部に関する前記アノテータによる入力を受け付ける入力領域を含むアノテーション画面であって、前記データ指定モデルによるデータの指定に基づいて当該ファイル表示領域および当該入力領域を関連付ける情報が追加されたアノテーション画面を前記アノテータに提示する、請求項１または２に記載のアノテーション支援装置。
　前記ファイル提供部は、前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルと共に、判別されたレイアウトに関する情報を前記アノテータに提供する、請求項１または２に記載のアノテーション支援装置。
　前記データ指定モデルは、指定したデータについての信頼度を出力し、
　前記ファイル提供部は、前記データ指定モデルによるデータの指定に関する情報および前記信頼度が追加された前記アノテーション対象ファイルを前記アノテータに提供する、
　請求項１または２に記載のアノテーション支援装置。
　前記モデル選択部は、判別されたレイアウトに応じて、複数の前記データ指定モデルを選択し、
　前記ファイル提供部は、複数の前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを前記アノテータに提供し、
　複数の前記データ指定モデルのうち一のデータ指定モデルの前記アノテータによる選択を受け付ける選択受付部を更に備える、
　請求項１または２に記載のアノテーション支援装置。
　アノテーション対象ファイルのレイアウトを判別するレイアウト判別ステップと、
　判別されたレイアウトに応じて、前記アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択ステップと、
　前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供ステップと、
　を備えるアノテーション支援方法。
　アノテーション対象ファイルのレイアウトを判別するレイアウト判別ステップと、
　判別されたレイアウトに応じて、前記アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択ステップと、
　前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供ステップと、
　をコンピュータに実行させるアノテーション支援プログラム。