JP2022079439A

JP2022079439A - 文書画像から情報を抽出する方法及びシステム

Info

Publication number: JP2022079439A
Application number: JP2021185221A
Authority: JP
Inventors: マティウホフアンドリー; Matiukhov Andrii
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2020-11-16
Filing date: 2021-11-12
Publication date: 2022-05-26
Also published as: US20220156490A1

Abstract

【課題】文書画像から情報を抽出する方法及びシステムを提供する。【解決手段】協働して文書画像１３２からの情報の抽出を容易にする様々なエンティティを含む環境１００において、文書データ抽出システム（ＤＤＥＳ）１０２は、文書に関連付けられた画像データを受け取る。ＤＤＥＳは、光学式文字認識（ＯＣＲ）ロジック１２０により画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。機械学習ロジック（ＭＬＬ）モジュール１１５は、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定する。ＤＤＥＳは、キーとキーに関連付けられた１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末１０４に伝達する。【選択図】図１

Description

本出願は、広くは文書処理に関する。本出願は特に、文書画像から情報を抽出するための方法及びシステムを記述する。

文書データ処理は時間のかかる作業でありうる。場合により文書は手作業で処理される。例えばデータ入力者のチームが、文書で指定されたデータをシステムに入力する仕事を課されることがある。処理の正確さは特定のデータ入力処理者のスキルに左右される。しかし最も熟練したデータ入力者であっても、特に１日に数百の文書を処理する場合にはエラーを生じがちである。

第１の態様では、計算機システムによって実行される方法は、文書データ抽出システム（ＤＤＥＳ）により、文書に関連付けられた画像データを受けることを含む。ＤＤＥＳは、ＤＤＥＳの光学式文字認識（ＯＣＲ）ロジックにより、画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。ＤＤＥＳの機械学習ロジック（ＭＬＬ）モジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定する。ＤＤＥＳは、キーとキーに関連付けられた１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。

第２の態様では、文書データ抽出システム（ＤＤＥＳ）は、命令コードを格納するメモリと、メモリと通信するプロセッサとを備える。命令コードは、文書データ抽出システム（ＤＤＥＳ）により、文書に関連付けられた画像データを受けること、を含む動作を行うようにプロセッサによって実行可能である。この動作は、ＤＤＥＳの光学式文字認識（ＯＣＲ）ロジックにより、メタデータを画像データから抽出することをさらに含む。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。ＤＤＥＳの機械学習ロジックモジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定する。ＤＤＥＳは、キーとキーに関連付けられた１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。

第３の態様では、非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は、命令コードを格納しており、命令コードは、プロセッサにより実行可能であって、プロセッサに、文書データ抽出システム（ＤＤＥＳ）により、文書に関連付けられた画像データを受けること、を含む動作を行わせる。この動作は、ＤＤＥＳの光学式文字認識（ＯＣＲ）ロジックにより、メタデータを画像データから抽出することをさらに含む。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。ＤＤＥＳの機械学習ロジックモジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定する。ＤＤＥＳは、キーとキーに関連付けられた１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。

添付の図面は、特許請求の範囲のさらなる理解をもたらすものであって、本明細書の一部として本明細書に組み込まれている。詳細な説明及びそこに記載の例示的実施例は、特許請求の範囲で定義される原理を説明する助けとなる。
協働して文書画像からの情報の抽出を容易にする様々なエンティティを含む環境を、一例によって示す。環境の文書データ抽出システム（ＤＤＥＳ）の機械学習ロジック（ＭＬＬ）を、一例によって示す。環境の端末からＤＤＥＳに伝達される文書画像を、一例によって示す。ＤＤＥＳのＯＣＲロジックによって抽出されたメタデータの一部を、一例によって示す。一連の単語の間の統語的依存性又は関係のグラフを、一例によって示す。一連の単語の間の統語的依存性又は関係のグラフを、一例によって示す。一連の単語の間の統語的依存性又は関係のグラフを、一例によって示す。ＤＤＥＳが行う動作を、一例によって示す。上述したシステムの１以上により実行可能なコンピュータ実装方法を、一例によって示す。環境のシステム又は装置の一部分を形成するか又はいずれかを実装することができるコンピュータシステムを、一例によって示す。

本開示の実装は、計算機技術に特有の技術的改善を提供する。この実装は特に、計算機システムが文書の分類に要する計算力及び時間を削減する。さらに、様々な形態の機械学習ロジックが実装され、文書の分類に利用される。本明細書に開示される実装は、訓練文書の比較的小さなデータベースを用いて機械学習ロジックを訓練することを容易にし、以て、さもなければ必要とされるであろう文書の大きなデータセットを不要にする。これにより計算機システムのストレージ要求を低減する。

システム、装置、方法の様々な例が本明細書に記載される。本明細書で用いる「例」及び「例示的」などの単語は、「例、事例、又は実例となること」を意味すると解される。「例」や「例示的」であるとして本明細書に記載される実施形態、実装、特徴はいずれも、特に明示されない限り、他の実施形態、実装、特徴よりも好適ないし有利であると必ずしも解釈されるべきでない。よって本明細書に提示される主題の範囲から逸脱することなく、他の実施形態、実装、特徴を利用でき、他の変更を行うことができる。

したがって、本明細書に記載される例は限定的であることを意図しない。本明細書に広く記載されかつ図に示されるような本開示の態様は、多種多様な異なる構成にアレンジ、置換、結合、分離、及び設計できることが容易に理解されよう。

さらに、文脈上そうでない場合を除き、各図に示される特徴は互いに組み合わせて使用できる。図は、図示される特徴の全てが各実施形態に必要なわけではないとの理解のもと、１以上の全ての実施形態の構成態様として広義に見られるべきである。

また、本明細書又は特許請求の範囲における要素、ブロック、ステップの羅列は、いずれも明確さを目的とするものである。このような羅列は、これらの要素、ブロック、ステップが特定の配列に拘泥したり特定の順序で実施されたりすることを要求ないし暗示すると解釈されるべきでない。

さらに、本明細書で用いられる「実質的」や「約」などの用語は、述べられる特性やパラメータや値が正確に達成される必要はなく、例えば公差、測定誤差、測定精度限界、及び当業者に知られる他の要因を含む逸脱ないし変動が、当該特性により得られたであろう効果を排除しない量で生じ得ることを意味する。

前述したように、文書データ処理は時間のかかる作業であり、特にデータ入力者のチームが手作業で行う場合にエラーを生じやすい。文書からデータを自動的に読み取るようにシステムを構成することで改善できる場合がある。例えば、一例として同じレイアウトの文書を光学式文字認識ソフトウェアによりスキャンできる。このソフトウェアは、文書の特定の領域を特定のファイルと関連付けるように構成できる。例えばＯＣＲソフトウェアは、文書の特定の長方形領域内にある任意の文字を、アカウント番号に対応するものとして関連付けるように構成できる。残念ながらこのデータ抽出方法は、ＯＣＲされる文書が厳格なテンプレートに準拠するとともにある程度厳正なテンプレートに従うことを必要とする。

別の例では、機械学習技術を利用して文書からデータを自動的に読み取ることができる。例えば、文書上のテキストを特定のフィールドに関連付けるように分類するために、分類器を利用できる。訓練は、文書データを分類器の入力層に入力すること、及び分類器の重み調整により分類器の出力層を駆動して特定の要求に合致する確率のベクトルを生成させることを要する。残念ながら、分類器を有効となるよう訓練するに必要な文書のバッチサイズは数十万単位になりうる。多くの場合、分類器の訓練に利用できる十分な訓練データが無い。

これらの欠点を克服できる文書データ抽出システム（ＤＤＥＳ）及び文書データ抽出方法の例を以下に説明する。一例によるＤＤＥＳは、文書に関連付けられた画像データを受けるように構成される。ＤＤＥＳの光学式文字認識（ＯＣＲ）ロジックは、画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。ＤＤＥＳの機械学習ロジックモジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定する。ＤＤＥＳは、キーとキーに関連付けられた１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。

図１は、協働して文書画像１３２からの情報の抽出を容易にする様々なエンティティを含む環境１００の一例を示す。環境１００の例示的エンティティは、文書データ抽出システム（ＤＤＥＳ）１０２と端末１０４とを含む。一部の例では、環境１００の様々なエンティティは、インターネットなどのネットワーク１１１を介して相互に通信するように構成される。

図を参照すると、一例による端末１０４は、デスクトップコンピュータ、タブレットなどのコンピュータシステム（計算機システム）に相当する。端末１０４は異なる種類の計算機装置にも相当できる。一例による端末１０４は文書画像１３２を格納する。文書画像１３２の一例は図３に示されており、以下でさらに詳細に説明する。例としての文書画像１３２は、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）、ＴＩＦＦ（ＴａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）、ＰＮＧ（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ）等のグラフィックフォーマットで表現される。

一例による端末１０４は、文書画像１３２をＤＤＥＳ１０２に伝達することを容易にするブラウザ又は他のインタフェースを実行する。以下でさらに詳述するように、訓練フェーズの間、ブラウザは、文書画像１３２の１以上の領域のテキストコンテンツを１以上のキーに関連付けることを容易にする。例えば端末１０４のユーザは、ブラウザを介して、単語又は単語の組み合わせを選択し、当該単語又は単語の組み合わせを異なるキー又はラベル（例えば名称、アカウント番号等）に関連付けることができる。

ＤＤＥＳ１０２は、メモリ１２７、プロセッサ１２５、入出力（Ｉ／Ｏ）サブシステム１１０、機械学習ロジック（ＭＬＬ）１１５、及び光学式文字認識（ＯＣＲ）ロジックを備える。例としてのＤＤＥＳ１０２は他のサブシステムを備えることもできる。

一例によるプロセッサ１２５は、Ｉｎｔｅｌ（登録商標）、ＡＭＤ（登録商標）、ＡＲＭ（登録商標）ベースのコンピュータシステムなどのスタンドアロンコンピュータシステムやその他のコンピュータシステムに相当するものであり、また用途特化のコンピュータシステムを含むことができる。一例によるコンピュータシステムは、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）、Ｌｉｎｕｘ（登録商標）、Ｕｎｉｘ（登録商標）、ＭａｃＯＳ（登録商標）、又は異なるオペレーティングシステムなどのオペレーティングシステムを含む。

一例によるプロセッサ１２５は、メモリ１２７と通信し、メモリ１２７に格納された命令コードを実行するように構成される。この点に関し、一例による命令コードは、ＤＤＥＳ１０２の種々のサブシステムによって実行される様々な動作をプロセッサ１２５に制御及び調整させる。例としてこれらの動作は、文書に関連付けられた画像データ（すなわち文書画像１３２）を受けることと、ＤＤＥＳ１０２の光学文字認識（ＯＣＲ）ロジックにより画像データ（すなわち文書画像１３２）からメタデータ４００を抽出することとを含む。メタデータ４００は、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。動作はさらに、ＤＤＥＳ１０２の機械学習ロジックモジュールにより、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定することと、ＤＤＥＳ１０２により、キーとキーに関連付けられた１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、クライアント端末１０４に伝達することとを含む。

一例によるＩ／Ｏサブシステム１１０は、１以上の入力、出力、又は入出力インタフェースを含み、端末１０４などの、ＤＤＥＳ１０２の外部のエンティティとの通信を容易にするように構成される。この点に関し、一例によるＩ／Ｏサブシステム１１０は、環境１００のエンティティが利用する通信方式を動的に決定し、決定された通信方式を使用するインタフェースを用いてエンティティに情報を通信するように構成される。Ｉ／Ｏサブシステム１１０は例えば、第１のエンティティがＲＥＳＴｆｕｌＡＰＩを利用していると判断でき、したがってＲＥＳＴｆｕｌ通信方式を使用するインタフェースを用いて当該エンティティと通信できる。

一例によるＭＬＬ１１５は、特に様々な教師あり及び教師なしの機械学習モデルを実装する又は実装を支援するように構成されたハードウェア、ソフトウェア、又はそれらの組み合わせに相当する。一例によるＭＬＬ１１５は、Ｈｏｌｔ－Ｗｉｎｔｅｒｓアルゴリズム、指数時間平滑化（ＥＴＳ）アルゴリズム、人工ニューラルネットワーク（ＡＮＮ）、回帰型ニューラルネットワーク（ＲＮＮ）、季節自己回帰移動平均（ＳＡＲＩＭＡ）アルゴリズム、長短期記憶（ＬＳＴＭ）のネットワーク、及びゲート付き回帰型ユニット（ＧＲＵ）アルゴリズムの、少なくともいずれかを実装する。例としてのＭＬＬ１１５は他の機械学習ロジックを実装することもできる。

一例によるＯＣＲロジック１２０は、ピクセルで指定された画像を受け取るとともに、当該画像のテキストコンテンツを指定するメタデータ４００を生成するように構成される。一例によるＯＣＲロジック１２０は例えば、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）、ＴＩＦＦ（ＴａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）、ＰＮＧ（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ）等のグラフィックフォーマットで指定された画像からメタデータ４００を生成するように構成される。一例によるＯＣＲロジック１２０は、ＡＢＢＹＹ社によるＡＢＢＹＹＦｉｎｅＲｅａｄｅｒライブラリなどの、特にＯＣＲ動作を実行するように構成された様々なロジックモジュールを有するライブラリを含むか、又は当該ライブラリと通信する。

本明細書で言及されるサブシステムはいずれも、Ｉｎｔｅｌ（登録商標）、ＡＭＤ（登録商標）、Ａｒｍ（登録商標）ベースのコンピュータシステムなどのスタンドアロンコンピュータシステムやその他のコンピュータシステムに対応でき、また用途特化のコンピュータシステムを含むことができると考えられる。これらコンピュータシステムは、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）、Ｌｉｎｕｘ（登録商標）、Ｕｎｉｘ（登録商標）などのオペレーティングシステムやその他のオペレーティングシステムを含むことができる。また、様々なサブシステムにより実行される動作は、より少ない又はより多いサブシステムに組み込まれることで、速度スケーリングやコスト削減等を促進できると考えられる。

図２は、ＭＬＬ１１５の一例を示す。図を参照すると、ＭＬＬ１１５は、第１ロジック２０５、第２ロジック２１０、及び第３ロジック２１５を有する。一例による第１ロジック２０５は、シーケンス入力層２２０、埋め込み層２２５、及びＬＳＴＭ層２３０を有する。以下でさらに詳述するように、シーケンス入力層２２０は、テキストコンテンツ項目列２０２を受けるように構成される。この点に関し、シーケンス入力層のサイズは、第１ロジック２０５によって処理される予定のテキストコンテンツ項目の数に対応できる。第１ロジック２０５は例えば、「Ｐａｇｅ１ｏｆ２」のような４つのテキストコンテンツ項目を有するテキストコンテンツ項目列２０２の処理を容易にする４サイズを有するように構成できる。埋め込み層２２５は、テキストコンテンツ項目列における各単語を「ベクトル化」するように構成される。一例による埋め込み層２２５はＷｏｒｄ２Ｖｅｃである。埋め込み層２２５の出力はＬＳＴＭ層２３０に入力できる。

一例による第２ロジック２１０は、特徴入力層２３５及び多層パーセプトロン２４０を有する。特徴入力層２３５は、テキストコンテンツ項目特徴２０４を受けるように構成される。例示のテキストコンテンツ項目特徴２０４は、対応のテキストコンテンツ項目が文書画像１３２において占める領域の量と、文書画像１３２の原点（例えば中央、左下隅）から対応のテキストコンテンツ項目までの距離とを指定する。他の例によるテキストコンテンツ項目特徴２０４は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルをさらに指定する。これらの態様は以下でさらに詳述する。

一例による第３ロジック２１５は、完全接続層２４５及び出力層２５０を有する。完全接続層２４５は、第１ロジック２０５の出力と第２ロジック２１０の出力とを結合するように構成される。出力層２５０は、確率のベクトルを出力するように構成される。確率のベクトルの各要素は、複数のキー又はラベルのうちの１つに関連付けられる。ベクトルの所与の要素に関連付けられる確率は、当該要素に関連付けられたキーに特定のテキストコンテンツ項目が関連付けられる確率を表す。

図３は、端末１０４からＤＤＥＳ１０２に伝達される文書画像１３２の一例を示す。例としての文書画像１３２は、ＪＰＥＧ画像、ＴＩＦＦ画像、ＰＮＧ画像等に相当する。図示の文書画像１３２は例えば納品書に該当できる。この点に関し、一例による文書画像１３２は、サービス提供者が提供する様々なサービスに関連する情報を含む。例えば、一例として文書画像１３２の第１領域３０５にサービス提供者の名称が指定される。文書画像１３２の第２領域３１０には納品書の日付と顧客のアカウント番号とが指定される。文書画像１３２の第３領域３１５には未払い合計額が指定される。一部の例では、サービスの日付、提供されたサービス、サービスのためのコスト、税金、手数料等が、文書画像１３２上で指定される。

上述したように、一例として端末１０４のユーザは、訓練フェーズの間に文書画像１３２の１以上の領域のテキストコンテンツを１以上のキーに関連付ける。この点に関し、一例として端末１０４のブラウザ又は他のインタフェースは、文書画像１３２のテキストコンテンツ項目の選択（例えばテキストコンテンツ項目の周りに矩形の選択ボックスをドラッグすることによる）と、選択されたテキストコンテンツ項目に関連付けられたキー又はラベルの指定（例えば選択部分を右クリックしてポップアップメニューの入力フィールドでキー／ラベルを指定することによる）とを容易にするように構成される。例えばユーザは、破線で示すように第１領域３０５で単語「ＡＴ＆Ｔ」を選択し、この選択をキー／ラベル「名称」と関連付けることができる。同様にユーザは、第２領域３１０で単語／文字列「Ｏｃｔ」「０７」「２０１７」を選択し、この単語／文字列をキー／ラベル「日付」と関連付けることができる。またユーザは、第２領域３１０で単語／文字列「１２３」「４５６７」「８９０」を選択し、この単語／文字列をキー／ラベル「アカウント番号」と関連付けることができる。またユーザは、文字列「＄４８．７０」を選択し、この文字列をキー／ラベル「合計額」と関連付けることができる。

図４Ａは、ＯＣＲロジック１２０によって抽出された一例によるメタデータ４００の一部を示す。前述したように、ＤＤＥＳ１０２はＯＣＲロジック１２０を利用して文書画像１３２からメタデータ４００を抽出する。メタデータ４００は、テキストコンテンツ項目列４０５と、テキストコンテンツ項目列４０５の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴（４１０Ａ、４１０Ｂ）とを指定する。図を参照すると、例示のメタデータ４００は、テキストコンテンツ項目列（例えば「ページ：２ｏｆ５発行日：Ｏｃｔ０７，２０１７アカウント番号：１２３４５６７８９０」）を含む。テキストコンテンツ項目「ページ：」に関連付けられるテキストコンテンツ項目特徴（４１０Ａ、４１０Ｂ）は、キー／値ペアの“Ａｒｅａ”：６７２及び“ＤｉｓｔａｎｃｅＴｏＯｒｉｇｉｎ”：１３１０．４４に該当する。テキストコンテンツ項目「２」に関連付けられるテキストコンテンツ項目特徴（４１０Ａ、４１０Ｂ）は、キー／値ペアの“Ａｒｅａ”：４４８．０及び“ＤｉｓｔａｎｃｅＴｏＯｒｉｇｉｎ”：１３７６．２６に該当する。

一例によるＤＤＥＳ１０２はさらに、各テキストコンテンツ項目に関連付けられる追加のテキストコンテンツ項目特徴を決定するように構成される。例えば、追加のテキストコンテンツ項目特徴の例は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの１以上を指定する。一例によるＤＤＥＳ１０２は、追加のテキストコンテンツ項目特徴の決定を容易にする正規表現パターンマッチングロジックを含む。

以下の表１は、テキストコンテンツ項目に関連付けることができる様々なテキストコンテンツ項目特徴を示す。

表１を参照すると、単語の欄は、テキストコンテンツ項目列に属する単語又はテキストコンテンツ項目を列挙する。この場合、単語列は「Ｐａｇｅ１ｏｆ２ＡｃｃｏｕｎｔＮｕｍｂｅｒ９２５６８５－１２５４２１８ＢｉｌｌｉｎｇＤａｔｅＭａｒ２２２０１７」に相当する。形状の欄は、各単語のフォーマットを指定する。例えば形状「Ｘｘｘｘ」は、対応のテキストコンテンツ項目が大文字で始まり３つの小文字が続くことを示す。また形状「ｄ」「ｄｄ」等は、対応のテキストコンテンツ項目が１桁、２桁等であることを示す。

形態素パターンの欄は、対応のテキストコンテンツ項目が動詞、名詞等であるか否かを示す。一例によるＤＤＥＳ１０２は、特定のテキストコンテンツ項目を特定の形態素パターンに適合させるためのルックアップテーブルを有する。

ハイフンの有無の欄は、テキストコンテンツにハイフンが存在するか否かを示す値Ｔ（真）又はＦ（偽）を指定する。ストップワードの欄は、テキストコンテンツ項目が文末にあるか否かを示す値Ｔ（真）又はＦ（偽）を指定する。

面積の欄及び相対位置の欄は、文書画像１３２内のテキストコンテンツ項目の面積及び相対位置に相当する数値（Ｎで表記）を指定する。一例では、面積及び相対位置の値は、ＯＣＲロジックにより抽出されたメタデータ４００から取得される（テキストコンテンツ項目特徴（４１０Ａ、４１０Ｂ）を参照）。

統語的依存性は、一列の文字又は単語のグループ間の関係性を定義する。図４Ｂ～図４Ｄは、一連の単語「ＰＡＧＥ１ＯＦ２ＡＣＣＯＵＮＴＮＵＭＢＥＲ９２５６８５－１２３５４２１８ＢＩＬＬＩＮＧＤＡＴＥＭＡＲ２２２０１７」の間の統語的依存性ないし関係性のグラフの例を示す。単語間の矢印は単語同士の依存関係を示す。グラフに示される単語の部類及び単語間の依存関係の種類を以下の表２で定義する。

図５は、ＤＤＥＳ１０２によって実行可能な動作の例を示す。動作の１以上は個々のシステムのメモリに格納可能な命令コードで実装できることを理解すべきである。命令コードは、これらシステムの１以上のプロセッサの、単独により又はこれらシステムの他のサブシステムとの組み合わせにより実行されて、個々のシステムに図示の動作を行わせることができる。

ブロック５００では、文書画像１３２を受ける。例えば、一例としてユーザは、端末１０４を介して文書画像１３２をＤＤＥＳ１０２に通信する。一例による文書画像１３２は、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）、ＴＩＦＦ（ＴａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）、ＰＮＧ（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ）等のグラフィックフォーマットで表現できる。一例による文書画像１３２は納品書に該当できる。この点に関し、文書画像１３２は、サービス提供者が提供する様々なサービスに関連する情報を含むことができる。例えば、文書の第１領域３０５にサービス提供者の名称を指定でき、文書画像１３２の第２領域３１０に納品書の日付と顧客のアカウント番号とを指定できる。文書画像１３２の第３領域３１５には未払い合計額を指定できる。一部の例では、サービスの日付、提供されたサービス、サービスのためのコスト、税金、手数料等が、文書画像１３２上で指定される。

ブロック５０５では、文書画像１３２がＯＣＲされる。一例としてＤＤＥＳ１０２はＯＣＲロジック１２０を備える。ＯＣＲロジック１２０は、画像データからメタデータ４００を抽出するために利用される。一例によるメタデータ４００は、テキストコンテンツ項目列４０５と、テキストコンテンツ項目列４０５の各テキストコンテンツ項目に関連付けられるテキストコンテンツ項目特徴（４１０Ａ、４１０Ｂ）とを指定する。

ブロック５１０では、ＤＤＥＳ１０２はモデルが存在するか否かを判断する。すなわちＤＤＥＳ１０２は、キーに関連付けられる１以上のテキストコンテンツ項目を決定するためのモデルが存在するか否かを判断する。この点に関し、一例によるＤＤＥＳ１０２は、予め指定されたキーに関連付けられるテキストコンテンツ項目を決定するようＭＬＬ１１５を構成するために利用されるモデル構成の格納場所を有する。一例として、各モデルは異なる型の文書に関連付けられる。例えば第１のモデルは、第１の型の納品書文書（例えば特定のサービス提供者に関連付けられた納品書）について予め指定されたキーに関連付けられるテキストコンテンツ項目を決定するようＭＬＬ１１５を構成するために使用できる。また第２のモデルは、第２の型の納品書文書（例えば異なるサービス提供者に関連付けられた納品書）について予め指定されたキーに関連付けられるテキストコンテンツ項目を決定するようＭＬＬ１１５を構成するために使用できる。

ブロック５１０でモデルが存在しない場合は、ブロック５１５で、キーを指定できる。そしてブロック５２０では、キーを値と関連付けることができる。例えば、名称、アカウント番号、合計などのキー又はラベルを指定できる。キーは、ユーザが情報を抽出したい文書画像１３２の態様に対応する。

一例としてＤＤＥＳ１０２は、ＯＣＲロジック１２０により決定されたメタデータ４００を含む文書画像１３２のバージョンを端末１０４に通信する。ユーザは端末１０４のインタフェースを介して、文書画像１３２のテキストコンテンツ項目を選択でき、テキストコンテンツ項目に関連付けるキー／ラベルを指定できる。例えば図３を参照すると、ユーザは、文書画像１３２のテキストコンテンツ項目「ＡＴ＆Ｔ」を選択でき、選択されたテキストコンテンツ項目にキー／ラベル「名称」を指定できる。またユーザは、テキストコンテンツ項目列「ＯＣＴ０７，２０１７」を選択でき、選択されたテキストコンテンツ項目にキー／ラベル「日付」を指定できる。またユーザは、「１２３４５６７８９０」を特定するテキストコンテンツ項目列を選択でき、選択したテキストコンテンツ項目にキー／ラベル「アカウント番号」を指定できる。またユーザは、「＄４８．７０」を特定するテキストコンテンツ項目を選択でき、選択したテキストコンテンツ項目にキー／ラベル「合計額」を指定できる。ユーザが行った選択はＤＤＥＳ１０２に通信できる。

ブロック５２５では、モデルが訓練される。すなわちＤＤＥＳ１０２は、ユーザが提供した情報を利用して、ユーザが指定したキー／ラベルにテキストコンテンツ項目を関連付けるようモデルを訓練する。図２を参照すると、文書画像１３２に関連付けられたメタデータ４００から得るテキストコンテンツ項目列２０２は、ＭＬＬ１１５の第１ロジック２０５に入力できる。例えば第１ロジック２０５は、４つのテキストコンテンツ項目からなる列を処理するように構成できる。この場合、「Ｐａｇｅ１ｏｆ２」のようなテキストコンテンツ項目列を第１ロジック２０５に入力できる。

前述したように、埋め込み層２２５は列内の各単語を「ベクトル化」する。一例による埋め込み層２２５はＷｏｒｄ２Ｖｅｃである。埋め込み層２２５の出力はＬＳＴＭ層２３０に入力できる。

同時に、テキストコンテンツ項目特徴２０４は、ＭＬＬ１１５の第２ロジック２１０に入力され、第２ロジック２１０の多層パーセプトロン２４０により処理されることができる。テキストコンテンツ項目特徴２０４は、表１の欄で指定された特徴に対応できる。例えばテキストコンテンツ項目特徴２０４は、文書画像１３２において対応のテキストコンテンツ項目が占める領域の量と、文書画像１３２の原点（例えば中央、左下隅）から対応のテキストコンテンツ項目までの距離とを指定できる。他の例によるテキストコンテンツ項目特徴２０４は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルを指定する。

上記の例に続き、第１の反復の間に列「Ｐａｇｅ１ｏｆ２」が第１ロジック２０５に入力されると、第１のテキストコンテンツ項目（すなわち「Ｐａｇｅ」）に関連付けられたテキストコンテンツ項目特徴２０４が第２ロジック２１０に入力される。第２の反復では、列「１ｏｆ２Ａｃｃｏｕｎｔ」が第１ロジック２０５に入力され、列における第１のテキストコンテンツ項目（すなわち「１」）に関連付けられたテキストコンテンツ項目特徴２０４が第２ロジック２１０に入力される。

各反復の間、第１ロジック２０５の出力及び第２ロジック２１０の出力は、ＭＬＬ１１５の全結合層２４５に入力される。複数のキーの各々について、全結合層２４５は、１以上のテキストコンテンツ項目が複数のキーのうち特定のキーに関連付けられる確率を出力するように構成される。例えば、ユーザが指定したキー／ラベルが「アカウント番号」、「合計額」、及び「日付」であったと仮定する。この場合、全結合層２４５の出力は、キーの数（すなわち３）に等しいサイズを有するベクトルに相当し、各ベクトルの値は、処理されるテキストコンテンツ項目（例えば第１のインタラクションにおける「Ｐａｇｅ」）が対応のキーに関連付けられる確率に相当する。例えば出力は、用語「Ｐａｇｅ」がキー「アカウント番号」、「合計額」、及び「日付」に関連付けられる確率を示す。一例として、ベクトルの確率の合計が１になるように、Ｓｏｆｔｍａｘアルゴリズムが出力層の値に適用される。

訓練の間、ＭＬＬ１１５の様々な層の重みは、ベクトルの確率が所期の結果に向かうように調整される。例えば、アカウント番号に関連付けられるテキストコンテンツ項目（例えば「１２３」、「４５６７」、及び「８９０」）の列が処理されるときに、重みは、キー「アカウント番号」に関連付けられた出力で指定される確率を高めるように調整される。また日付に関連付けられるテキストコンテンツ項目（例えば「Ｏｃｔ」、「０７」、及び「２０１７」）の列が処理されるときに、重みは、キー「日付」に関連付けられた出力で指定される確率を高めるように調整される。一例として、バックプロパゲーションを利用することで、テキストコンテンツ項目列及び対応のテキストコンテンツ項目特徴２０４の処理に要する複数回の反復を通して、重みを所期の出力に向かわせる。

特定の文書に対する訓練が完了した後は、ブロック５００からの動作を繰り返す。

２回目のパスの間、前述したように、ブロック５００で第２の文書画像１３２を受けることができ、ブロック５０５でＯＣＲ処理を行うことができる。ブロック５１０でモデルが存在しない場合、ブロック５１５～５２５の動作が繰り返される。

ブロック５１０でモデルが存在する場合には、ブロック５３０で、第２の文書画像１３２をモデルにより処理できる。処理後、一例によるＤＤＥＳ１０２は、キー／値ペアのテーブルを生成する。値は、特定のキーに最も密接に関連付けられるとしてモデルにより決定された１以上のテキストコンテンツ項目に相当する。例えば、図３の文書画像１３２を処理した後、ＤＤＥＳ１０２は以下の表３を生成できる。

一例として、処理後、表３の情報をユーザに（例えば端末１０４を介して）伝達できる。

ブロック５３５では、モデルにより成された予測が精度閾値を下回るか否かの判断が行われる。例えばユーザは、キー／値のペアリングが正しいか否かを判断するために、上記の伝達されたテーブルを確認できる。

ブロック５３５で値が精度閾値を下回ると判断された場合、文書画像１３２は、ブロック５２０の動作により処理できる。この場合、ユーザは、キーに関連付けられるべき正しいテキストコンテンツ項目又はテキストコンテンツ項目列を同定でき、さらなる訓練のために文書画像１３２をＤＤＥＳ１０２に提出できる。この場合、モデルは別の文書で訓練される。このプロセスを繰り返すに従い、モデルの精度が向上する。一例として、同じ型（例えば同じ納品書フォーマットで異なる値を持つもの）の５～７個の文書画像１３２でモデルを訓練した後に、約９５％の精度レベルが達成される。

ブロック５３５で予測精度が精度閾値以上と判断された場合、ブロック５４０で、モデルは準備できたとみなされる。すなわちモデルは、特定の型の文書を処理するに十分な精度であるとみなすことができる。

図６は、上述した複数の例の１以上によって実行可能な、一例によるコンピュータ実装方法を示す。ブロック６００は、文書データ抽出システム（ＤＤＥＳ）により、文書に関連付けられた画像データを受けることに関する。

ブロック６０５は、ＤＤＥＳの光学文字認識（ＯＣＲ）ロジックにより、テキストコンテンツ項目列と当該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、画像データから抽出することに関する。

ブロック６１０は、ＤＤＥＳの機械学習ロジックモジュールにより、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定することに関する。

ブロック６１５は、ＤＤＥＳにより、キーとキーに関連付けられた１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することに関する。

一部の例では、各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が画像データにおいて占める領域の量と、画像データの原点から対応のテキストコンテンツ項目までの距離とを指定する。

一部の例は、ＤＤＥＳにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴を決定することを含む。追加のテキストコンテンツ項目特徴は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、１以上を指定する。

一部の例では、キーに関連付けられた１以上のテキストコンテンツ項目を決定することは、回帰型ニューラルネットワーク層を含む機械学習ロジックモジュールの第１ロジックにより、テキストコンテンツ項目列を受けることと、多層パーセプトロンを含む機械学習ロジックモジュールの第２ロジックにより、テキストコンテンツ項目特徴を受けることと、全結合層を含む機械学習ロジックモジュールの第３ロジックにより、第１ロジックの出力と第２ロジックの出力とを結合することとをさらに含む。全結合層は、複数のキーの各々について、１以上のテキストコンテンツ項目が複数のキーのうち特定のキーに関連付けられる確率を出力する。

一部の例は、文書型を決定することと、文書型に基づき、文書型の文書のキーに関連付けられた１以上のテキストコンテンツ項目を決定するように構成された機械学習ロジックモジュールを、複数の機械学習ロジックモジュールから選択することとを含む。

一部の例は、文書型についての機械学習ロジックモジュールが存在しないとの判断に応答して、文書型の文書のキーに関連付けられた１以上のテキストコンテンツ項目を決定するように機械学習ロジックモジュールを訓練することを容易にするユーザインタフェースを生成することと、訓練された機械学習ロジックモジュールを文書型に関連付けることとを含む。

一部の例では、ユーザインタフェースは、訓練文書の１以上のテキストコンテンツ項目を、１以上のテキストコンテンツ項目に関連付けられた対応の１以上のキーに対応付けすることを容易にする。

一部の例は、特定の機械学習ロジックモジュールの予測精度が精度閾値を下回るとの判断に応答して、文書型の別の文書で機械学習ロジックモジュールを訓練することを含む。

図７は、上述したシステムや装置のいずれかの一部分を形成するか又はいずれかを実装することができるコンピュータシステム（計算機システム）７００の一例を示す。コンピュータシステム７００は、プロセッサ７０５が実行することでコンピュータシステム７００に上述した動作のいずれかを行わせることができる一組の命令７４５を有することができる。一例によるコンピュータシステム７００は、スタンドアロン装置として動作でき、或いは、例えばネットワークを用いて他のコンピュータシステム又は周辺装置に接続できる。

ネットワーク利用の例では、コンピュータシステム７００は、サーバの能力において動作でき、又はサーバ－クライアントネットワーク環境におけるクライアントコンピュータとして、若しくはピアツーピア（又は分散）環境におけるピアコンピュータシステムとして動作できる。コンピュータシステム７００はまた、命令７４５（逐次的又はその他）を実行することで装置に１以上のアクションを行わせることができるパーソナルコンピュータやモバイル装置などの様々な装置として実装されるか、又はそれら装置に組み込まれることができる。さらに、既述のシステムの各々は、１以上のコンピュータ動作を行うよう一組又は複数組の命令を個別に又は共同で実行するサブシステムの集まりを含むことができる。

コンピュータシステム７００は、情報伝達のためにバス７２０に通信可能に結合された１以上のメモリ装置７１０を備えることができる。さらにメモリ７１０には、コンピュータシステムに上述の動作を行わせるように動作可能なコードを格納できる。メモリ７１０は、ランダムアクセスメモリ、リードオンリーメモリ、プログラマブルメモリ、ハードディスクドライブ、又は他の任意の型のメモリないし記憶装置であることができる。

コンピュータシステム７００は、液晶ディスプレイ（ＬＣＤ）、陰極線管（ＣＲＴ）、又は他のディスプレイなどの、情報伝達に適したディスプレイ７３０を備えることができる。ディスプレイ７３０は、プロセッサ７０５により生成された処理結果をユーザが見るためのインタフェースとして稼働できる。

さらにコンピュータシステム７００は、キーボードやマウスやタッチスクリーンなどの、ユーザがシステム７００の構成要素と対話できるように構成された入力装置７２５を備えることができる。

コンピュータシステム７００はまた、ディスク又は光学ドライブユニット７１５を備えることができる。ドライブユニット７１５は、命令７４５を格納できるコンピュータ可読媒体７４０を有することができる。命令７４５はその全体又は少なくとも一部が、コンピュータシステム７００による実行の間、メモリ７１０及びプロセッサ７０５の少なくともいずれかに常駐できる。メモリ７１０及びプロセッサ７０５はまた、既述のようにコンピュータ可読媒体を有することができる。

コンピュータシステム７００は、ネットワーク７５０を介した通信をサポートするための通信インタフェース７３５を備えることができる。ネットワーク７５０は、有線ネットワーク、無線ネットワーク、又はそれらの組み合わせを含むことができる。通信インタフェース７３５は、電気電子技術者協会（ＩＥＥＥ）規格８０２．１１、８０２．１２、８０２．１６（ＷｉＭＡＸ）、８０２．２０、セルラー電話規格、又は他の通信規格などの、任意数のワイヤレスブロードバンド通信規格を介した通信を可能にすることができる。

したがって、本明細書に記載の方法及びシステムは、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせで実現できる。これら方法及びシステムは、少なくとも１つのコンピュータシステムにおける集中形式で、或いは相互接続されたコンピュータシステムに種々の要素が分散している分散形式で実現できる。本明細書に記載の方法の実行に適応したあらゆる種類のコンピュータシステムや他の装置を採用できる。

本明細書に記載の方法及びシステムはまた、本明細書に記載される動作の実装を可能にする全ての機能を有するとともにコンピュータシステムにロードされることでそれら動作を実行できるコンピュータプログラム製品に組み込むことができる。本明細書で用いるコンピュータプログラムは、機械実行可能な言語、コード、又は表記で、装置に特定の機能を直接に、或いはａ）第１の言語、コード、又は表記から別の言語、コード、又は表記への変換、及びｂ）第１の言語、コード、又は表記の複製の、一方又は双方の後に、行わせることを意図した一組の機械実行可能な命令を表現するものである。

動作のシステム及び方法を特定の例を参照して説明したが、特許請求の範囲から逸脱することなく様々な変更が可能であり均等物での代替も可能であることは、当業者に理解されよう。本願の方法及びシステムは開示した特定の例に限定されるものでなく、開示した方法及びシステムは、添付の特許請求の範囲の記載に包含される全ての実施形態を含むことを意図している。

Claims

計算機システムにより実行される方法であって、
文書データ抽出システム（ＤＤＥＳ）により、文書に関連付けられた画像データを受けることと、
前記ＤＤＥＳの光学式文字認識（ＯＣＲ）ロジックにより、テキストコンテンツ項目列と該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、前記画像データから抽出することと、
前記ＤＤＥＳの機械学習ロジックモジュールにより、前記テキストコンテンツ項目列と前記テキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定することと、
前記ＤＤＥＳにより、前記キーと前記キーに関連付けられた前記１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することと、
を含む方法。
各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が前記画像データにおいて占める領域の量と、前記画像データの原点から該対応のテキストコンテンツ項目までの距離とを指定する、請求項１に記載の方法。
前記ＤＤＥＳにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴であって、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、１以上を指定する追加のテキストコンテンツ項目特徴を決定すること、をさらに含む請求項２に記載の方法。
キーに関連付けられた前記１以上のテキストコンテンツ項目を決定することは、
回帰型ニューラルネットワーク層を含む前記機械学習ロジックモジュールの第１ロジックにより、前記テキストコンテンツ項目列を受けることと、
多層パーセプトロンを含む前記機械学習ロジックモジュールの第２ロジックにより、前記テキストコンテンツ項目特徴を受けることと、
全結合層を含む前記機械学習ロジックモジュールの第３ロジックにより、前記第１ロジックの出力と前記第２ロジックの出力とを結合することと、をさらに含み、該全結合層は、複数のキーの各々について、前記１以上のテキストコンテンツ項目が該複数のキーのうち特定のキーに関連付けられる確率を出力する、
請求項１に記載の方法。
文書型を決定することと、
前記文書型に基づき、前記文書型の文書のキーに関連付けられた１以上のテキストコンテンツ項目を決定するように構成された機械学習ロジックモジュールを、複数の機械学習ロジックモジュールから選択することと、
をさらに含む請求項１に記載の方法。
前記文書型についての機械学習ロジックモジュールが存在しないとの判断に応答して、前記文書型の文書のキーに関連付けられた１以上のテキストコンテンツ項目を決定するように機械学習ロジックモジュールを訓練することを容易にするユーザインタフェースを生成することと、
訓練された機械学習ロジックモジュールを前記文書型に関連付けることと、
をさらに含む請求項５に記載の方法。
前記ユーザインタフェースは、訓練文書の１以上のテキストコンテンツ項目を、該１以上のテキストコンテンツ項目に関連付けられた対応の１以上のキーに対応付けすることを容易にする、請求項６に記載の方法。
特定の機械学習ロジックモジュールの予測精度が精度閾値を下回るとの判断に応答して、前記文書型の別の文書で前記機械学習ロジックモジュールを訓練すること、をさらに含む請求項６に記載の方法。
命令コードを格納するメモリと、
前記メモリと通信するプロセッサと、
を備える文書データ抽出システム（ＤＤＥＳ）であって、
前記命令コードは、
前記文書データ抽出システム（ＤＤＥＳ）により、文書に関連付けられた画像データを受けることと、
前記ＤＤＥＳの光学式文字認識（ＯＣＲ）ロジックにより、テキストコンテンツ項目列と該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、前記画像データから抽出することと、
前記ＤＤＥＳの機械学習ロジックモジュールにより、前記テキストコンテンツ項目列と前記テキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定することと、
前記ＤＤＥＳにより、前記キーと前記キーに関連付けられた前記１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することと、
を含む動作を行うように前記プロセッサによって実行可能である、文書データ抽出システム。
各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が前記画像データにおいて占める領域の量と、前記画像データの原点から該対応のテキストコンテンツ項目までの距離とを指定する、請求項９に記載のシステム。
前記動作は、
前記ＤＤＥＳにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴であって、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、１以上を指定する追加のテキストコンテンツ項目特徴を決定すること、をさらに含む請求項１０に記載のシステム。
キーに関連付けられた前記１以上のテキストコンテンツ項目を決定することにおいて、前記動作は、
回帰型ニューラルネットワーク層を含む前記機械学習ロジックモジュールの第１ロジックにより、前記テキストコンテンツ項目列を受けることと、
多層パーセプトロンを含む前記機械学習ロジックモジュールの第２ロジックにより、前記テキストコンテンツ項目特徴を受けることと、
全結合層を含む前記機械学習ロジックモジュールの第３ロジックにより、前記第１ロジックの出力と前記第２ロジックの出力とを結合することと、をさらに含み、該全結合層は、複数のキーの各々について、前記１以上のテキストコンテンツ項目が該複数のキーのうち特定のキーに関連付けられる確率を出力する、
請求項９に記載のシステム。
前記動作は、
文書型を決定することと、
前記文書型に基づき、前記文書型の文書のキーに関連付けられた１以上のテキストコンテンツ項目を決定するように構成された機械学習ロジックモジュールを、複数の機械学習ロジックモジュールから選択することと、
をさらに含む請求項９に記載のシステム。
前記動作は、
前記文書型についての機械学習ロジックモジュールが存在しないとの判断に応答して、前記文書型の文書のキーに関連付けられた１以上のテキストコンテンツ項目を決定するように機械学習ロジックモジュールを訓練することを容易にするユーザインタフェースを生成することと、
訓練された機械学習ロジックモジュールを前記文書型に関連付けることと、
をさらに含む請求項１３に記載のシステム。
前記ユーザインタフェースは、訓練文書の１以上のテキストコンテンツ項目を、該１以上のテキストコンテンツ項目に関連付けられた対応の１以上のキーに対応付けすることを容易にする、請求項１４に記載のシステム。
前記動作は、
特定の機械学習ロジックモジュールの予測精度が精度閾値を下回るとの判断に応答して、前記文書型の別の文書で前記機械学習ロジックモジュールを訓練すること、をさらに含む請求項１４に記載のシステム。
命令コードを格納している非一時的コンピュータ可読媒体であって、該命令コードは、プロセッサにより実行可能であって、該プロセッサに、
文書データ抽出システム（ＤＤＥＳ）により、文書に関連付けられた画像データを受けることと、
前記ＤＤＥＳの光学式文字認識（ＯＣＲ）ロジックにより、テキストコンテンツ項目列と該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、前記画像データから抽出することと、
前記ＤＤＥＳの機械学習ロジックモジュールにより、前記テキストコンテンツ項目列と前記テキストコンテンツ項目特徴とに基づき、キーに関連付けられた１以上のテキストコンテンツ項目を決定することと、
前記ＤＤＥＳにより、前記キーと前記キーに関連付けられた前記１以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することと、
を含む動作を行わせる、非一時的コンピュータ可読媒体。
各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が前記画像データにおいて占める領域の量と、前記画像データの原点から該対応のテキストコンテンツ項目までの距離とを指定する、請求項１７に記載の非一時的コンピュータ可読媒体。
前記動作は、
前記ＤＤＥＳにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴であって、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、１以上を指定する追加のテキストコンテンツ項目特徴を決定すること、をさらに含む請求項１８に記載の非一時的コンピュータ可読媒体。
キーに関連付けられた前記１以上のテキストコンテンツ項目を決定することにおいて、前記動作は、
回帰型ニューラルネットワーク層を含む前記機械学習ロジックモジュールの第１ロジックにより、前記テキストコンテンツ項目列を受けることと、
多層パーセプトロンを含む前記機械学習ロジックモジュールの第２ロジックにより、前記テキストコンテンツ項目特徴を受けることと、
全結合層を含む前記機械学習ロジックモジュールの第３ロジックにより、前記第１ロジックの出力と前記第２ロジックの出力とを結合することと、をさらに含み、該全結合層は、複数のキーの各々について、前記１以上のテキストコンテンツ項目が該複数のキーのうち特定のキーに関連付けられる確率を出力する、
請求項１７に記載の非一時的コンピュータ可読媒体。