JP2022079439A - 文書画像から情報を抽出する方法及びシステム - Google Patents

文書画像から情報を抽出する方法及びシステム Download PDF

Info

Publication number
JP2022079439A
JP2022079439A JP2021185221A JP2021185221A JP2022079439A JP 2022079439 A JP2022079439 A JP 2022079439A JP 2021185221 A JP2021185221 A JP 2021185221A JP 2021185221 A JP2021185221 A JP 2021185221A JP 2022079439 A JP2022079439 A JP 2022079439A
Authority
JP
Japan
Prior art keywords
text content
content item
document
machine learning
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021185221A
Other languages
English (en)
Inventor
マティウホフ アンドリー
Matiukhov Andrii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Publication of JP2022079439A publication Critical patent/JP2022079439A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書画像から情報を抽出する方法及びシステムを提供する。【解決手段】協働して文書画像132からの情報の抽出を容易にする様々なエンティティを含む環境100において、文書データ抽出システム(DDES)102は、文書に関連付けられた画像データを受け取る。DDESは、光学式文字認識(OCR)ロジック120により画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。機械学習ロジック(MLL)モジュール115は、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。DDESは、キーとキーに関連付けられた1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末104に伝達する。【選択図】図1

Description

本出願は、広くは文書処理に関する。本出願は特に、文書画像から情報を抽出するための方法及びシステムを記述する。
文書データ処理は時間のかかる作業でありうる。場合により文書は手作業で処理される。例えばデータ入力者のチームが、文書で指定されたデータをシステムに入力する仕事を課されることがある。処理の正確さは特定のデータ入力処理者のスキルに左右される。しかし最も熟練したデータ入力者であっても、特に1日に数百の文書を処理する場合にはエラーを生じがちである。
第1の態様では、計算機システムによって実行される方法は、文書データ抽出システム(DDES)により、文書に関連付けられた画像データを受けることを含む。DDESは、DDESの光学式文字認識(OCR)ロジックにより、画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。DDESの機械学習ロジック(MLL)モジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。DDESは、キーとキーに関連付けられた1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。
第2の態様では、文書データ抽出システム(DDES)は、命令コードを格納するメモリと、メモリと通信するプロセッサとを備える。命令コードは、文書データ抽出システム(DDES)により、文書に関連付けられた画像データを受けること、を含む動作を行うようにプロセッサによって実行可能である。この動作は、DDESの光学式文字認識(OCR)ロジックにより、メタデータを画像データから抽出することをさらに含む。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。DDESの機械学習ロジックモジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。DDESは、キーとキーに関連付けられた1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。
第3の態様では、非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は、命令コードを格納しており、命令コードは、プロセッサにより実行可能であって、プロセッサに、文書データ抽出システム(DDES)により、文書に関連付けられた画像データを受けること、を含む動作を行わせる。この動作は、DDESの光学式文字認識(OCR)ロジックにより、メタデータを画像データから抽出することをさらに含む。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。DDESの機械学習ロジックモジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。DDESは、キーとキーに関連付けられた1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。
添付の図面は、特許請求の範囲のさらなる理解をもたらすものであって、本明細書の一部として本明細書に組み込まれている。詳細な説明及びそこに記載の例示的実施例は、特許請求の範囲で定義される原理を説明する助けとなる。
協働して文書画像からの情報の抽出を容易にする様々なエンティティを含む環境を、一例によって示す。 環境の文書データ抽出システム(DDES)の機械学習ロジック(MLL)を、一例によって示す。 環境の端末からDDESに伝達される文書画像を、一例によって示す。 DDESのOCRロジックによって抽出されたメタデータの一部を、一例によって示す。 一連の単語の間の統語的依存性又は関係のグラフを、一例によって示す。 一連の単語の間の統語的依存性又は関係のグラフを、一例によって示す。 一連の単語の間の統語的依存性又は関係のグラフを、一例によって示す。 DDESが行う動作を、一例によって示す。 上述したシステムの1以上により実行可能なコンピュータ実装方法を、一例によって示す。 環境のシステム又は装置の一部分を形成するか又はいずれかを実装することができるコンピュータシステムを、一例によって示す。
本開示の実装は、計算機技術に特有の技術的改善を提供する。この実装は特に、計算機システムが文書の分類に要する計算力及び時間を削減する。さらに、様々な形態の機械学習ロジックが実装され、文書の分類に利用される。本明細書に開示される実装は、訓練文書の比較的小さなデータベースを用いて機械学習ロジックを訓練することを容易にし、以て、さもなければ必要とされるであろう文書の大きなデータセットを不要にする。これにより計算機システムのストレージ要求を低減する。
システム、装置、方法の様々な例が本明細書に記載される。本明細書で用いる「例」及び「例示的」などの単語は、「例、事例、又は実例となること」を意味すると解される。「例」や「例示的」であるとして本明細書に記載される実施形態、実装、特徴はいずれも、特に明示されない限り、他の実施形態、実装、特徴よりも好適ないし有利であると必ずしも解釈されるべきでない。よって本明細書に提示される主題の範囲から逸脱することなく、他の実施形態、実装、特徴を利用でき、他の変更を行うことができる。
したがって、本明細書に記載される例は限定的であることを意図しない。本明細書に広く記載されかつ図に示されるような本開示の態様は、多種多様な異なる構成にアレンジ、置換、結合、分離、及び設計できることが容易に理解されよう。
さらに、文脈上そうでない場合を除き、各図に示される特徴は互いに組み合わせて使用できる。図は、図示される特徴の全てが各実施形態に必要なわけではないとの理解のもと、1以上の全ての実施形態の構成態様として広義に見られるべきである。
また、本明細書又は特許請求の範囲における要素、ブロック、ステップの羅列は、いずれも明確さを目的とするものである。このような羅列は、これらの要素、ブロック、ステップが特定の配列に拘泥したり特定の順序で実施されたりすることを要求ないし暗示すると解釈されるべきでない。
さらに、本明細書で用いられる「実質的」や「約」などの用語は、述べられる特性やパラメータや値が正確に達成される必要はなく、例えば公差、測定誤差、測定精度限界、及び当業者に知られる他の要因を含む逸脱ないし変動が、当該特性により得られたであろう効果を排除しない量で生じ得ることを意味する。
前述したように、文書データ処理は時間のかかる作業であり、特にデータ入力者のチームが手作業で行う場合にエラーを生じやすい。文書からデータを自動的に読み取るようにシステムを構成することで改善できる場合がある。例えば、一例として同じレイアウトの文書を光学式文字認識ソフトウェアによりスキャンできる。このソフトウェアは、文書の特定の領域を特定のファイルと関連付けるように構成できる。例えばOCRソフトウェアは、文書の特定の長方形領域内にある任意の文字を、アカウント番号に対応するものとして関連付けるように構成できる。残念ながらこのデータ抽出方法は、OCRされる文書が厳格なテンプレートに準拠するとともにある程度厳正なテンプレートに従うことを必要とする。
別の例では、機械学習技術を利用して文書からデータを自動的に読み取ることができる。例えば、文書上のテキストを特定のフィールドに関連付けるように分類するために、分類器を利用できる。訓練は、文書データを分類器の入力層に入力すること、及び分類器の重み調整により分類器の出力層を駆動して特定の要求に合致する確率のベクトルを生成させることを要する。残念ながら、分類器を有効となるよう訓練するに必要な文書のバッチサイズは数十万単位になりうる。多くの場合、分類器の訓練に利用できる十分な訓練データが無い。
これらの欠点を克服できる文書データ抽出システム(DDES)及び文書データ抽出方法の例を以下に説明する。一例によるDDESは、文書に関連付けられた画像データを受けるように構成される。DDESの光学式文字認識(OCR)ロジックは、画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。DDESの機械学習ロジックモジュールは、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。DDESは、キーとキーに関連付けられた1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達する。
図1は、協働して文書画像132からの情報の抽出を容易にする様々なエンティティを含む環境100の一例を示す。環境100の例示的エンティティは、文書データ抽出システム(DDES)102と端末104とを含む。一部の例では、環境100の様々なエンティティは、インターネットなどのネットワーク111を介して相互に通信するように構成される。
図を参照すると、一例による端末104は、デスクトップコンピュータ、タブレットなどのコンピュータシステム(計算機システム)に相当する。端末104は異なる種類の計算機装置にも相当できる。一例による端末104は文書画像132を格納する。文書画像132の一例は図3に示されており、以下でさらに詳細に説明する。例としての文書画像132は、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、PNG(Portable Network Graphics)等のグラフィックフォーマットで表現される。
一例による端末104は、文書画像132をDDES102に伝達することを容易にするブラウザ又は他のインタフェースを実行する。以下でさらに詳述するように、訓練フェーズの間、ブラウザは、文書画像132の1以上の領域のテキストコンテンツを1以上のキーに関連付けることを容易にする。例えば端末104のユーザは、ブラウザを介して、単語又は単語の組み合わせを選択し、当該単語又は単語の組み合わせを異なるキー又はラベル(例えば名称、アカウント番号等)に関連付けることができる。
DDES102は、メモリ127、プロセッサ125、入出力(I/O)サブシステム110、機械学習ロジック(MLL)115、及び光学式文字認識(OCR)ロジックを備える。例としてのDDES102は他のサブシステムを備えることもできる。
一例によるプロセッサ125は、Intel(登録商標)、AMD(登録商標)、ARM(登録商標)ベースのコンピュータシステムなどのスタンドアロンコンピュータシステムやその他のコンピュータシステムに相当するものであり、また用途特化のコンピュータシステムを含むことができる。一例によるコンピュータシステムは、Microsoft Windows(登録商標)、Linux(登録商標)、Unix(登録商標)、Mac OS(登録商標)、又は異なるオペレーティングシステムなどのオペレーティングシステムを含む。
一例によるプロセッサ125は、メモリ127と通信し、メモリ127に格納された命令コードを実行するように構成される。この点に関し、一例による命令コードは、DDES102の種々のサブシステムによって実行される様々な動作をプロセッサ125に制御及び調整させる。例としてこれらの動作は、文書に関連付けられた画像データ(すなわち文書画像132)を受けることと、DDES102の光学文字認識(OCR)ロジックにより画像データ(すなわち文書画像132)からメタデータ400を抽出することとを含む。メタデータ400は、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定する。動作はさらに、DDES102の機械学習ロジックモジュールにより、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定することと、DDES102により、キーとキーに関連付けられた1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、クライアント端末104に伝達することとを含む。
一例によるI/Oサブシステム110は、1以上の入力、出力、又は入出力インタフェースを含み、端末104などの、DDES102の外部のエンティティとの通信を容易にするように構成される。この点に関し、一例によるI/Oサブシステム110は、環境100のエンティティが利用する通信方式を動的に決定し、決定された通信方式を使用するインタフェースを用いてエンティティに情報を通信するように構成される。I/Oサブシステム110は例えば、第1のエンティティがRESTful APIを利用していると判断でき、したがってRESTful通信方式を使用するインタフェースを用いて当該エンティティと通信できる。
一例によるMLL115は、特に様々な教師あり及び教師なしの機械学習モデルを実装する又は実装を支援するように構成されたハードウェア、ソフトウェア、又はそれらの組み合わせに相当する。一例によるMLL115は、Holt-Wintersアルゴリズム、指数時間平滑化(ETS)アルゴリズム、人工ニューラルネットワーク(ANN)、回帰型ニューラルネットワーク(RNN)、季節自己回帰移動平均(SARIMA)アルゴリズム、長短期記憶(LSTM)のネットワーク、及びゲート付き回帰型ユニット(GRU)アルゴリズムの、少なくともいずれかを実装する。例としてのMLL115は他の機械学習ロジックを実装することもできる。
一例によるOCRロジック120は、ピクセルで指定された画像を受け取るとともに、当該画像のテキストコンテンツを指定するメタデータ400を生成するように構成される。一例によるOCRロジック120は例えば、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、PNG(Portable Network Graphics)等のグラフィックフォーマットで指定された画像からメタデータ400を生成するように構成される。一例によるOCRロジック120は、ABBYY社によるABBYY FineReaderライブラリなどの、特にOCR動作を実行するように構成された様々なロジックモジュールを有するライブラリを含むか、又は当該ライブラリと通信する。
本明細書で言及されるサブシステムはいずれも、Intel(登録商標)、AMD(登録商標)、Arm(登録商標)ベースのコンピュータシステムなどのスタンドアロンコンピュータシステムやその他のコンピュータシステムに対応でき、また用途特化のコンピュータシステムを含むことができると考えられる。これらコンピュータシステムは、Microsoft Windows(登録商標)、Linux(登録商標)、Unix(登録商標)などのオペレーティングシステムやその他のオペレーティングシステムを含むことができる。また、様々なサブシステムにより実行される動作は、より少ない又はより多いサブシステムに組み込まれることで、速度スケーリングやコスト削減等を促進できると考えられる。
図2は、MLL115の一例を示す。図を参照すると、MLL115は、第1ロジック205、第2ロジック210、及び第3ロジック215を有する。一例による第1ロジック205は、シーケンス入力層220、埋め込み層225、及びLSTM層230を有する。以下でさらに詳述するように、シーケンス入力層220は、テキストコンテンツ項目列202を受けるように構成される。この点に関し、シーケンス入力層のサイズは、第1ロジック205によって処理される予定のテキストコンテンツ項目の数に対応できる。第1ロジック205は例えば、「Page 1 of 2」のような4つのテキストコンテンツ項目を有するテキストコンテンツ項目列202の処理を容易にする4サイズを有するように構成できる。埋め込み層225は、テキストコンテンツ項目列における各単語を「ベクトル化」するように構成される。一例による埋め込み層225はWord2Vecである。埋め込み層225の出力はLSTM層230に入力できる。
一例による第2ロジック210は、特徴入力層235及び多層パーセプトロン240を有する。特徴入力層235は、テキストコンテンツ項目特徴204を受けるように構成される。例示のテキストコンテンツ項目特徴204は、対応のテキストコンテンツ項目が文書画像132において占める領域の量と、文書画像132の原点(例えば中央、左下隅)から対応のテキストコンテンツ項目までの距離とを指定する。他の例によるテキストコンテンツ項目特徴204は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルをさらに指定する。これらの態様は以下でさらに詳述する。
一例による第3ロジック215は、完全接続層245及び出力層250を有する。完全接続層245は、第1ロジック205の出力と第2ロジック210の出力とを結合するように構成される。出力層250は、確率のベクトルを出力するように構成される。確率のベクトルの各要素は、複数のキー又はラベルのうちの1つに関連付けられる。ベクトルの所与の要素に関連付けられる確率は、当該要素に関連付けられたキーに特定のテキストコンテンツ項目が関連付けられる確率を表す。
図3は、端末104からDDES102に伝達される文書画像132の一例を示す。例としての文書画像132は、JPEG画像、TIFF画像、PNG画像等に相当する。図示の文書画像132は例えば納品書に該当できる。この点に関し、一例による文書画像132は、サービス提供者が提供する様々なサービスに関連する情報を含む。例えば、一例として文書画像132の第1領域305にサービス提供者の名称が指定される。文書画像132の第2領域310には納品書の日付と顧客のアカウント番号とが指定される。文書画像132の第3領域315には未払い合計額が指定される。一部の例では、サービスの日付、提供されたサービス、サービスのためのコスト、税金、手数料等が、文書画像132上で指定される。
上述したように、一例として端末104のユーザは、訓練フェーズの間に文書画像132の1以上の領域のテキストコンテンツを1以上のキーに関連付ける。この点に関し、一例として端末104のブラウザ又は他のインタフェースは、文書画像132のテキストコンテンツ項目の選択(例えばテキストコンテンツ項目の周りに矩形の選択ボックスをドラッグすることによる)と、選択されたテキストコンテンツ項目に関連付けられたキー又はラベルの指定(例えば選択部分を右クリックしてポップアップメニューの入力フィールドでキー/ラベルを指定することによる)とを容易にするように構成される。例えばユーザは、破線で示すように第1領域305で単語「AT&T」を選択し、この選択をキー/ラベル「名称」と関連付けることができる。同様にユーザは、第2領域310で単語/文字列「Oct」「07」「2017」を選択し、この単語/文字列をキー/ラベル「日付」と関連付けることができる。またユーザは、第2領域310で単語/文字列「123」「4567」「890」を選択し、この単語/文字列をキー/ラベル「アカウント番号」と関連付けることができる。またユーザは、文字列「$48.70」を選択し、この文字列をキー/ラベル「合計額」と関連付けることができる。
図4Aは、OCRロジック120によって抽出された一例によるメタデータ400の一部を示す。前述したように、DDES102はOCRロジック120を利用して文書画像132からメタデータ400を抽出する。メタデータ400は、テキストコンテンツ項目列405と、テキストコンテンツ項目列405の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴(410A、410B)とを指定する。図を参照すると、例示のメタデータ400は、テキストコンテンツ項目列(例えば「ページ:2of5 発行日:Oct07,2017 アカウント番号:1234567890」)を含む。テキストコンテンツ項目「ページ:」に関連付けられるテキストコンテンツ項目特徴(410A、410B)は、キー/値ペアの“Area”:672及び“DistanceToOrigin”:1310.44に該当する。テキストコンテンツ項目「2」に関連付けられるテキストコンテンツ項目特徴(410A、410B)は、キー/値ペアの“Area”:448.0及び“DistanceToOrigin”:1376.26に該当する。
一例によるDDES102はさらに、各テキストコンテンツ項目に関連付けられる追加のテキストコンテンツ項目特徴を決定するように構成される。例えば、追加のテキストコンテンツ項目特徴の例は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの1以上を指定する。一例によるDDES102は、追加のテキストコンテンツ項目特徴の決定を容易にする正規表現パターンマッチングロジックを含む。
以下の表1は、テキストコンテンツ項目に関連付けることができる様々なテキストコンテンツ項目特徴を示す。
Figure 2022079439000002
Figure 2022079439000003
表1を参照すると、単語の欄は、テキストコンテンツ項目列に属する単語又はテキストコンテンツ項目を列挙する。この場合、単語列は「Page 1 of 2 Account Number 925685-125 421 8 Billing Date Mar 22 2017」に相当する。形状の欄は、各単語のフォーマットを指定する。例えば形状「Xxxx」は、対応のテキストコンテンツ項目が大文字で始まり3つの小文字が続くことを示す。また形状「d」「dd」等は、対応のテキストコンテンツ項目が1桁、2桁等であることを示す。
形態素パターンの欄は、対応のテキストコンテンツ項目が動詞、名詞等であるか否かを示す。一例によるDDES102は、特定のテキストコンテンツ項目を特定の形態素パターンに適合させるためのルックアップテーブルを有する。
ハイフンの有無の欄は、テキストコンテンツにハイフンが存在するか否かを示す値T(真)又はF(偽)を指定する。ストップワードの欄は、テキストコンテンツ項目が文末にあるか否かを示す値T(真)又はF(偽)を指定する。
面積の欄及び相対位置の欄は、文書画像132内のテキストコンテンツ項目の面積及び相対位置に相当する数値(Nで表記)を指定する。一例では、面積及び相対位置の値は、OCRロジックにより抽出されたメタデータ400から取得される(テキストコンテンツ項目特徴(410A、410B)を参照)。
統語的依存性は、一列の文字又は単語のグループ間の関係性を定義する。図4B~図4Dは、一連の単語「PAGE 1 OF 2 ACCOUNT NUMBER 925685-1235 421 8 BILLING DATE MAR 22 2017」の間の統語的依存性ないし関係性のグラフの例を示す。単語間の矢印は単語同士の依存関係を示す。グラフに示される単語の部類及び単語間の依存関係の種類を以下の表2で定義する。
Figure 2022079439000004
図5は、DDES102によって実行可能な動作の例を示す。動作の1以上は個々のシステムのメモリに格納可能な命令コードで実装できることを理解すべきである。命令コードは、これらシステムの1以上のプロセッサの、単独により又はこれらシステムの他のサブシステムとの組み合わせにより実行されて、個々のシステムに図示の動作を行わせることができる。
ブロック500では、文書画像132を受ける。例えば、一例としてユーザは、端末104を介して文書画像132をDDES102に通信する。一例による文書画像132は、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、PNG(Portable Network Graphics)等のグラフィックフォーマットで表現できる。一例による文書画像132は納品書に該当できる。この点に関し、文書画像132は、サービス提供者が提供する様々なサービスに関連する情報を含むことができる。例えば、文書の第1領域305にサービス提供者の名称を指定でき、文書画像132の第2領域310に納品書の日付と顧客のアカウント番号とを指定できる。文書画像132の第3領域315には未払い合計額を指定できる。一部の例では、サービスの日付、提供されたサービス、サービスのためのコスト、税金、手数料等が、文書画像132上で指定される。
ブロック505では、文書画像132がOCRされる。一例としてDDES102はOCRロジック120を備える。OCRロジック120は、画像データからメタデータ400を抽出するために利用される。一例によるメタデータ400は、テキストコンテンツ項目列405と、テキストコンテンツ項目列405の各テキストコンテンツ項目に関連付けられるテキストコンテンツ項目特徴(410A、410B)とを指定する。
ブロック510では、DDES102はモデルが存在するか否かを判断する。すなわちDDES102は、キーに関連付けられる1以上のテキストコンテンツ項目を決定するためのモデルが存在するか否かを判断する。この点に関し、一例によるDDES102は、予め指定されたキーに関連付けられるテキストコンテンツ項目を決定するようMLL115を構成するために利用されるモデル構成の格納場所を有する。一例として、各モデルは異なる型の文書に関連付けられる。例えば第1のモデルは、第1の型の納品書文書(例えば特定のサービス提供者に関連付けられた納品書)について予め指定されたキーに関連付けられるテキストコンテンツ項目を決定するようMLL115を構成するために使用できる。また第2のモデルは、第2の型の納品書文書(例えば異なるサービス提供者に関連付けられた納品書)について予め指定されたキーに関連付けられるテキストコンテンツ項目を決定するようMLL115を構成するために使用できる。
ブロック510でモデルが存在しない場合は、ブロック515で、キーを指定できる。そしてブロック520では、キーを値と関連付けることができる。例えば、名称、アカウント番号、合計などのキー又はラベルを指定できる。キーは、ユーザが情報を抽出したい文書画像132の態様に対応する。
一例としてDDES102は、OCRロジック120により決定されたメタデータ400を含む文書画像132のバージョンを端末104に通信する。ユーザは端末104のインタフェースを介して、文書画像132のテキストコンテンツ項目を選択でき、テキストコンテンツ項目に関連付けるキー/ラベルを指定できる。例えば図3を参照すると、ユーザは、文書画像132のテキストコンテンツ項目「AT&T」を選択でき、選択されたテキストコンテンツ項目にキー/ラベル「名称」を指定できる。またユーザは、テキストコンテンツ項目列「OCT 07, 2017」を選択でき、選択されたテキストコンテンツ項目にキー/ラベル「日付」を指定できる。またユーザは、「123 4567 890」を特定するテキストコンテンツ項目列を選択でき、選択したテキストコンテンツ項目にキー/ラベル「アカウント番号」を指定できる。またユーザは、「$48.70」を特定するテキストコンテンツ項目を選択でき、選択したテキストコンテンツ項目にキー/ラベル「合計額」を指定できる。ユーザが行った選択はDDES102に通信できる。
ブロック525では、モデルが訓練される。すなわちDDES102は、ユーザが提供した情報を利用して、ユーザが指定したキー/ラベルにテキストコンテンツ項目を関連付けるようモデルを訓練する。図2を参照すると、文書画像132に関連付けられたメタデータ400から得るテキストコンテンツ項目列202は、MLL115の第1ロジック205に入力できる。例えば第1ロジック205は、4つのテキストコンテンツ項目からなる列を処理するように構成できる。この場合、「Page 1 of 2」のようなテキストコンテンツ項目列を第1ロジック205に入力できる。
前述したように、埋め込み層225は列内の各単語を「ベクトル化」する。一例による埋め込み層225はWord2Vecである。埋め込み層225の出力はLSTM層230に入力できる。
同時に、テキストコンテンツ項目特徴204は、MLL115の第2ロジック210に入力され、第2ロジック210の多層パーセプトロン240により処理されることができる。テキストコンテンツ項目特徴204は、表1の欄で指定された特徴に対応できる。例えばテキストコンテンツ項目特徴204は、文書画像132において対応のテキストコンテンツ項目が占める領域の量と、文書画像132の原点(例えば中央、左下隅)から対応のテキストコンテンツ項目までの距離とを指定できる。他の例によるテキストコンテンツ項目特徴204は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルを指定する。
上記の例に続き、第1の反復の間に列「Page 1 of 2」が第1ロジック205に入力されると、第1のテキストコンテンツ項目(すなわち「Page」)に関連付けられたテキストコンテンツ項目特徴204が第2ロジック210に入力される。第2の反復では、列「1 of 2 Account」が第1ロジック205に入力され、列における第1のテキストコンテンツ項目(すなわち「1」)に関連付けられたテキストコンテンツ項目特徴204が第2ロジック210に入力される。
各反復の間、第1ロジック205の出力及び第2ロジック210の出力は、MLL115の全結合層245に入力される。複数のキーの各々について、全結合層245は、1以上のテキストコンテンツ項目が複数のキーのうち特定のキーに関連付けられる確率を出力するように構成される。例えば、ユーザが指定したキー/ラベルが「アカウント番号」、「合計額」、及び「日付」であったと仮定する。この場合、全結合層245の出力は、キーの数(すなわち3)に等しいサイズを有するベクトルに相当し、各ベクトルの値は、処理されるテキストコンテンツ項目(例えば第1のインタラクションにおける「Page」)が対応のキーに関連付けられる確率に相当する。例えば出力は、用語「Page」がキー「アカウント番号」、「合計額」、及び「日付」に関連付けられる確率を示す。一例として、ベクトルの確率の合計が1になるように、Softmaxアルゴリズムが出力層の値に適用される。
訓練の間、MLL115の様々な層の重みは、ベクトルの確率が所期の結果に向かうように調整される。例えば、アカウント番号に関連付けられるテキストコンテンツ項目(例えば「123」、「4567」、及び「890」)の列が処理されるときに、重みは、キー「アカウント番号」に関連付けられた出力で指定される確率を高めるように調整される。また日付に関連付けられるテキストコンテンツ項目(例えば「Oct」、「07」、及び「2017」)の列が処理されるときに、重みは、キー「日付」に関連付けられた出力で指定される確率を高めるように調整される。一例として、バックプロパゲーションを利用することで、テキストコンテンツ項目列及び対応のテキストコンテンツ項目特徴204の処理に要する複数回の反復を通して、重みを所期の出力に向かわせる。
特定の文書に対する訓練が完了した後は、ブロック500からの動作を繰り返す。
2回目のパスの間、前述したように、ブロック500で第2の文書画像132を受けることができ、ブロック505でOCR処理を行うことができる。ブロック510でモデルが存在しない場合、ブロック515~525の動作が繰り返される。
ブロック510でモデルが存在する場合には、ブロック530で、第2の文書画像132をモデルにより処理できる。処理後、一例によるDDES102は、キー/値ペアのテーブルを生成する。値は、特定のキーに最も密接に関連付けられるとしてモデルにより決定された1以上のテキストコンテンツ項目に相当する。例えば、図3の文書画像132を処理した後、DDES102は以下の表3を生成できる。
Figure 2022079439000005
一例として、処理後、表3の情報をユーザに(例えば端末104を介して)伝達できる。
ブロック535では、モデルにより成された予測が精度閾値を下回るか否かの判断が行われる。例えばユーザは、キー/値のペアリングが正しいか否かを判断するために、上記の伝達されたテーブルを確認できる。
ブロック535で値が精度閾値を下回ると判断された場合、文書画像132は、ブロック520の動作により処理できる。この場合、ユーザは、キーに関連付けられるべき正しいテキストコンテンツ項目又はテキストコンテンツ項目列を同定でき、さらなる訓練のために文書画像132をDDES102に提出できる。この場合、モデルは別の文書で訓練される。このプロセスを繰り返すに従い、モデルの精度が向上する。一例として、同じ型(例えば同じ納品書フォーマットで異なる値を持つもの)の5~7個の文書画像132でモデルを訓練した後に、約95%の精度レベルが達成される。
ブロック535で予測精度が精度閾値以上と判断された場合、ブロック540で、モデルは準備できたとみなされる。すなわちモデルは、特定の型の文書を処理するに十分な精度であるとみなすことができる。
図6は、上述した複数の例の1以上によって実行可能な、一例によるコンピュータ実装方法を示す。ブロック600は、文書データ抽出システム(DDES)により、文書に関連付けられた画像データを受けることに関する。
ブロック605は、DDESの光学文字認識(OCR)ロジックにより、テキストコンテンツ項目列と当該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、画像データから抽出することに関する。
ブロック610は、DDESの機械学習ロジックモジュールにより、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定することに関する。
ブロック615は、DDESにより、キーとキーに関連付けられた1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することに関する。
一部の例では、各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が画像データにおいて占める領域の量と、画像データの原点から対応のテキストコンテンツ項目までの距離とを指定する。
一部の例は、DDESにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴を決定することを含む。追加のテキストコンテンツ項目特徴は、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、1以上を指定する。
一部の例では、キーに関連付けられた1以上のテキストコンテンツ項目を決定することは、回帰型ニューラルネットワーク層を含む機械学習ロジックモジュールの第1ロジックにより、テキストコンテンツ項目列を受けることと、多層パーセプトロンを含む機械学習ロジックモジュールの第2ロジックにより、テキストコンテンツ項目特徴を受けることと、全結合層を含む機械学習ロジックモジュールの第3ロジックにより、第1ロジックの出力と第2ロジックの出力とを結合することとをさらに含む。全結合層は、複数のキーの各々について、1以上のテキストコンテンツ項目が複数のキーのうち特定のキーに関連付けられる確率を出力する。
一部の例は、文書型を決定することと、文書型に基づき、文書型の文書のキーに関連付けられた1以上のテキストコンテンツ項目を決定するように構成された機械学習ロジックモジュールを、複数の機械学習ロジックモジュールから選択することとを含む。
一部の例は、文書型についての機械学習ロジックモジュールが存在しないとの判断に応答して、文書型の文書のキーに関連付けられた1以上のテキストコンテンツ項目を決定するように機械学習ロジックモジュールを訓練することを容易にするユーザインタフェースを生成することと、訓練された機械学習ロジックモジュールを文書型に関連付けることとを含む。
一部の例では、ユーザインタフェースは、訓練文書の1以上のテキストコンテンツ項目を、1以上のテキストコンテンツ項目に関連付けられた対応の1以上のキーに対応付けすることを容易にする。
一部の例は、特定の機械学習ロジックモジュールの予測精度が精度閾値を下回るとの判断に応答して、文書型の別の文書で機械学習ロジックモジュールを訓練することを含む。
図7は、上述したシステムや装置のいずれかの一部分を形成するか又はいずれかを実装することができるコンピュータシステム(計算機システム)700の一例を示す。コンピュータシステム700は、プロセッサ705が実行することでコンピュータシステム700に上述した動作のいずれかを行わせることができる一組の命令745を有することができる。一例によるコンピュータシステム700は、スタンドアロン装置として動作でき、或いは、例えばネットワークを用いて他のコンピュータシステム又は周辺装置に接続できる。
ネットワーク利用の例では、コンピュータシステム700は、サーバの能力において動作でき、又はサーバ-クライアントネットワーク環境におけるクライアントコンピュータとして、若しくはピアツーピア(又は分散)環境におけるピアコンピュータシステムとして動作できる。コンピュータシステム700はまた、命令745(逐次的又はその他)を実行することで装置に1以上のアクションを行わせることができるパーソナルコンピュータやモバイル装置などの様々な装置として実装されるか、又はそれら装置に組み込まれることができる。さらに、既述のシステムの各々は、1以上のコンピュータ動作を行うよう一組又は複数組の命令を個別に又は共同で実行するサブシステムの集まりを含むことができる。
コンピュータシステム700は、情報伝達のためにバス720に通信可能に結合された1以上のメモリ装置710を備えることができる。さらにメモリ710には、コンピュータシステムに上述の動作を行わせるように動作可能なコードを格納できる。メモリ710は、ランダムアクセスメモリ、リードオンリーメモリ、プログラマブルメモリ、ハードディスクドライブ、又は他の任意の型のメモリないし記憶装置であることができる。
コンピュータシステム700は、液晶ディスプレイ(LCD)、陰極線管(CRT)、又は他のディスプレイなどの、情報伝達に適したディスプレイ730を備えることができる。ディスプレイ730は、プロセッサ705により生成された処理結果をユーザが見るためのインタフェースとして稼働できる。
さらにコンピュータシステム700は、キーボードやマウスやタッチスクリーンなどの、ユーザがシステム700の構成要素と対話できるように構成された入力装置725を備えることができる。
コンピュータシステム700はまた、ディスク又は光学ドライブユニット715を備えることができる。ドライブユニット715は、命令745を格納できるコンピュータ可読媒体740を有することができる。命令745はその全体又は少なくとも一部が、コンピュータシステム700による実行の間、メモリ710及びプロセッサ705の少なくともいずれかに常駐できる。メモリ710及びプロセッサ705はまた、既述のようにコンピュータ可読媒体を有することができる。
コンピュータシステム700は、ネットワーク750を介した通信をサポートするための通信インタフェース735を備えることができる。ネットワーク750は、有線ネットワーク、無線ネットワーク、又はそれらの組み合わせを含むことができる。通信インタフェース735は、電気電子技術者協会(IEEE)規格802.11、802.12、802.16(WiMAX)、802.20、セルラー電話規格、又は他の通信規格などの、任意数のワイヤレスブロードバンド通信規格を介した通信を可能にすることができる。
したがって、本明細書に記載の方法及びシステムは、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせで実現できる。これら方法及びシステムは、少なくとも1つのコンピュータシステムにおける集中形式で、或いは相互接続されたコンピュータシステムに種々の要素が分散している分散形式で実現できる。本明細書に記載の方法の実行に適応したあらゆる種類のコンピュータシステムや他の装置を採用できる。
本明細書に記載の方法及びシステムはまた、本明細書に記載される動作の実装を可能にする全ての機能を有するとともにコンピュータシステムにロードされることでそれら動作を実行できるコンピュータプログラム製品に組み込むことができる。本明細書で用いるコンピュータプログラムは、機械実行可能な言語、コード、又は表記で、装置に特定の機能を直接に、或いはa)第1の言語、コード、又は表記から別の言語、コード、又は表記への変換、及びb)第1の言語、コード、又は表記の複製の、一方又は双方の後に、行わせることを意図した一組の機械実行可能な命令を表現するものである。
動作のシステム及び方法を特定の例を参照して説明したが、特許請求の範囲から逸脱することなく様々な変更が可能であり均等物での代替も可能であることは、当業者に理解されよう。本願の方法及びシステムは開示した特定の例に限定されるものでなく、開示した方法及びシステムは、添付の特許請求の範囲の記載に包含される全ての実施形態を含むことを意図している。

Claims (20)

  1. 計算機システムにより実行される方法であって、
    文書データ抽出システム(DDES)により、文書に関連付けられた画像データを受けることと、
    前記DDESの光学式文字認識(OCR)ロジックにより、テキストコンテンツ項目列と該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、前記画像データから抽出することと、
    前記DDESの機械学習ロジックモジュールにより、前記テキストコンテンツ項目列と前記テキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定することと、
    前記DDESにより、前記キーと前記キーに関連付けられた前記1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することと、
    を含む方法。
  2. 各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が前記画像データにおいて占める領域の量と、前記画像データの原点から該対応のテキストコンテンツ項目までの距離とを指定する、請求項1に記載の方法。
  3. 前記DDESにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴であって、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、1以上を指定する追加のテキストコンテンツ項目特徴を決定すること、をさらに含む請求項2に記載の方法。
  4. キーに関連付けられた前記1以上のテキストコンテンツ項目を決定することは、
    回帰型ニューラルネットワーク層を含む前記機械学習ロジックモジュールの第1ロジックにより、前記テキストコンテンツ項目列を受けることと、
    多層パーセプトロンを含む前記機械学習ロジックモジュールの第2ロジックにより、前記テキストコンテンツ項目特徴を受けることと、
    全結合層を含む前記機械学習ロジックモジュールの第3ロジックにより、前記第1ロジックの出力と前記第2ロジックの出力とを結合することと、をさらに含み、該全結合層は、複数のキーの各々について、前記1以上のテキストコンテンツ項目が該複数のキーのうち特定のキーに関連付けられる確率を出力する、
    請求項1に記載の方法。
  5. 文書型を決定することと、
    前記文書型に基づき、前記文書型の文書のキーに関連付けられた1以上のテキストコンテンツ項目を決定するように構成された機械学習ロジックモジュールを、複数の機械学習ロジックモジュールから選択することと、
    をさらに含む請求項1に記載の方法。
  6. 前記文書型についての機械学習ロジックモジュールが存在しないとの判断に応答して、前記文書型の文書のキーに関連付けられた1以上のテキストコンテンツ項目を決定するように機械学習ロジックモジュールを訓練することを容易にするユーザインタフェースを生成することと、
    訓練された機械学習ロジックモジュールを前記文書型に関連付けることと、
    をさらに含む請求項5に記載の方法。
  7. 前記ユーザインタフェースは、訓練文書の1以上のテキストコンテンツ項目を、該1以上のテキストコンテンツ項目に関連付けられた対応の1以上のキーに対応付けすることを容易にする、請求項6に記載の方法。
  8. 特定の機械学習ロジックモジュールの予測精度が精度閾値を下回るとの判断に応答して、前記文書型の別の文書で前記機械学習ロジックモジュールを訓練すること、をさらに含む請求項6に記載の方法。
  9. 命令コードを格納するメモリと、
    前記メモリと通信するプロセッサと、
    を備える文書データ抽出システム(DDES)であって、
    前記命令コードは、
    前記文書データ抽出システム(DDES)により、文書に関連付けられた画像データを受けることと、
    前記DDESの光学式文字認識(OCR)ロジックにより、テキストコンテンツ項目列と該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、前記画像データから抽出することと、
    前記DDESの機械学習ロジックモジュールにより、前記テキストコンテンツ項目列と前記テキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定することと、
    前記DDESにより、前記キーと前記キーに関連付けられた前記1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することと、
    を含む動作を行うように前記プロセッサによって実行可能である、文書データ抽出システム。
  10. 各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が前記画像データにおいて占める領域の量と、前記画像データの原点から該対応のテキストコンテンツ項目までの距離とを指定する、請求項9に記載のシステム。
  11. 前記動作は、
    前記DDESにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴であって、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、1以上を指定する追加のテキストコンテンツ項目特徴を決定すること、をさらに含む請求項10に記載のシステム。
  12. キーに関連付けられた前記1以上のテキストコンテンツ項目を決定することにおいて、前記動作は、
    回帰型ニューラルネットワーク層を含む前記機械学習ロジックモジュールの第1ロジックにより、前記テキストコンテンツ項目列を受けることと、
    多層パーセプトロンを含む前記機械学習ロジックモジュールの第2ロジックにより、前記テキストコンテンツ項目特徴を受けることと、
    全結合層を含む前記機械学習ロジックモジュールの第3ロジックにより、前記第1ロジックの出力と前記第2ロジックの出力とを結合することと、をさらに含み、該全結合層は、複数のキーの各々について、前記1以上のテキストコンテンツ項目が該複数のキーのうち特定のキーに関連付けられる確率を出力する、
    請求項9に記載のシステム。
  13. 前記動作は、
    文書型を決定することと、
    前記文書型に基づき、前記文書型の文書のキーに関連付けられた1以上のテキストコンテンツ項目を決定するように構成された機械学習ロジックモジュールを、複数の機械学習ロジックモジュールから選択することと、
    をさらに含む請求項9に記載のシステム。
  14. 前記動作は、
    前記文書型についての機械学習ロジックモジュールが存在しないとの判断に応答して、前記文書型の文書のキーに関連付けられた1以上のテキストコンテンツ項目を決定するように機械学習ロジックモジュールを訓練することを容易にするユーザインタフェースを生成することと、
    訓練された機械学習ロジックモジュールを前記文書型に関連付けることと、
    をさらに含む請求項13に記載のシステム。
  15. 前記ユーザインタフェースは、訓練文書の1以上のテキストコンテンツ項目を、該1以上のテキストコンテンツ項目に関連付けられた対応の1以上のキーに対応付けすることを容易にする、請求項14に記載のシステム。
  16. 前記動作は、
    特定の機械学習ロジックモジュールの予測精度が精度閾値を下回るとの判断に応答して、前記文書型の別の文書で前記機械学習ロジックモジュールを訓練すること、をさらに含む請求項14に記載のシステム。
  17. 命令コードを格納している非一時的コンピュータ可読媒体であって、該命令コードは、プロセッサにより実行可能であって、該プロセッサに、
    文書データ抽出システム(DDES)により、文書に関連付けられた画像データを受けることと、
    前記DDESの光学式文字認識(OCR)ロジックにより、テキストコンテンツ項目列と該テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とを指定するメタデータを、前記画像データから抽出することと、
    前記DDESの機械学習ロジックモジュールにより、前記テキストコンテンツ項目列と前記テキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定することと、
    前記DDESにより、前記キーと前記キーに関連付けられた前記1以上のテキストコンテンツ項目に関連付けられる対応の値とを指定する情報を、端末に伝達することと、
    を含む動作を行わせる、非一時的コンピュータ可読媒体。
  18. 各テキストコンテンツ項目特徴は、対応のテキストコンテンツ項目が前記画像データにおいて占める領域の量と、前記画像データの原点から該対応のテキストコンテンツ項目までの距離とを指定する、請求項17に記載の非一時的コンピュータ可読媒体。
  19. 前記動作は、
    前記DDESにより、各テキストコンテンツ項目に関連付けられた追加のテキストコンテンツ項目特徴であって、対応のテキストコンテンツ項目に関連付けられた形状、形態素パターン、統語的依存性、ハイフン有無表示、ストップワード表示、及びスタイルのうちの、1以上を指定する追加のテキストコンテンツ項目特徴を決定すること、をさらに含む請求項18に記載の非一時的コンピュータ可読媒体。
  20. キーに関連付けられた前記1以上のテキストコンテンツ項目を決定することにおいて、前記動作は、
    回帰型ニューラルネットワーク層を含む前記機械学習ロジックモジュールの第1ロジックにより、前記テキストコンテンツ項目列を受けることと、
    多層パーセプトロンを含む前記機械学習ロジックモジュールの第2ロジックにより、前記テキストコンテンツ項目特徴を受けることと、
    全結合層を含む前記機械学習ロジックモジュールの第3ロジックにより、前記第1ロジックの出力と前記第2ロジックの出力とを結合することと、をさらに含み、該全結合層は、複数のキーの各々について、前記1以上のテキストコンテンツ項目が該複数のキーのうち特定のキーに関連付けられる確率を出力する、
    請求項17に記載の非一時的コンピュータ可読媒体。
JP2021185221A 2020-11-16 2021-11-12 文書画像から情報を抽出する方法及びシステム Pending JP2022079439A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/098,902 2020-11-16
US17/098,902 US20220156490A1 (en) 2020-11-16 2020-11-16 Method and system for extracting information from a document image

Publications (1)

Publication Number Publication Date
JP2022079439A true JP2022079439A (ja) 2022-05-26

Family

ID=81587634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021185221A Pending JP2022079439A (ja) 2020-11-16 2021-11-12 文書画像から情報を抽出する方法及びシステム

Country Status (2)

Country Link
US (1) US20220156490A1 (ja)
JP (1) JP2022079439A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230367800A1 (en) * 2022-05-13 2023-11-16 S&P Global Inc. Information Extraction for Unstructured Text Documents
CN117943213B (zh) * 2024-03-27 2024-06-04 浙江艾领创矿业科技有限公司 微泡浮选机的实时监测预警***及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354009B2 (en) * 2016-08-24 2019-07-16 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text
US10452904B2 (en) * 2017-12-01 2019-10-22 International Business Machines Corporation Blockwise extraction of document metadata
US11586987B2 (en) * 2019-03-05 2023-02-21 Kensho Technologies, Llc Dynamically updated text classifier
EP4004811A4 (en) * 2019-07-26 2023-07-12 Patnotate LLC CONTENT ANALYSIS TECHNOLOGIES
US11443416B2 (en) * 2019-08-30 2022-09-13 Sas Institute Inc. Techniques for image content extraction

Also Published As

Publication number Publication date
US20220156490A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
US20200242302A1 (en) Intention identification method, intention identification apparatus, and computer-readable recording medium
US11403532B2 (en) Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm
US20200004815A1 (en) Text entity detection and recognition from images
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
US10372827B2 (en) Translating phrases from image data on a GUI
CN111626048A (zh) 文本纠错方法、装置、设备及存储介质
JP2022079439A (ja) 文書画像から情報を抽出する方法及びシステム
US11874798B2 (en) Smart dataset collection system
US11741956B2 (en) Methods and apparatus for intent recognition
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
US11875114B2 (en) Method and system for extracting information from a document
CN112464927B (zh) 一种信息提取方法、装置及***
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
WO2021042529A1 (zh) 文章摘要自动生成方法、装置及计算机可读存储介质
US11830268B2 (en) Hierarchal document classification system and method
CN110826321A (zh) 合同文件风险校验方法、装置、计算机设备以及存储介质
US20220083907A1 (en) Data generation and annotation for machine learning
US11886809B1 (en) Identifying templates based on fonts
CN115345669A (zh) 文案生成方法、装置、存储介质及计算机设备
CN115080039A (zh) 前端代码生成方法、装置、计算机设备、存储介质和产品
JP7126808B2 (ja) 情報処理装置および情報処理装置用プログラム
CN110909777A (zh) 一种多维特征图嵌入方法、装置、设备及介质
CN110795424A (zh) 特征工程变量数据请求处理方法、装置及电子设备
US11386310B2 (en) Systems for font replacement in print workflows