JP2019114239A

JP2019114239A - 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別

Info

Publication number: JP2019114239A
Application number: JP2018197523A
Authority: JP
Inventors: ボワン，ウルベッシュ; Bhowan Urvesh; サクリスタン，ペドロ; Sacristan Pedro; オマリー，ローラ; O'malley Laura; ミランダ，アビラッシュアレキサンダー; Alexander Miranda Abhilash; コーコラン，メイブ; Corcoran Medb
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2017-11-13
Filing date: 2018-10-19
Publication date: 2019-07-11
Anticipated expiration: 2038-10-19
Also published as: CN109783635A; JP6629942B2; US11106716B2; EP3483784A3; EP3483784A2; US20190147103A1

Abstract

【課題】階層型文書分類システムを提供する。【解決手段】コンピュータシステムに実装される階層型の電子文書の分類及びメタデータ認別のための論理及びデータフローは、定義済みの文書カテゴリのセットの中の１つに入力電子文書を分類２２４する、テキストベースの文書分類器モデル２２６を含む。システムはさらに、特定の文書カテゴリの電子文書をメタデータカテゴリのセットに分類する画像ベースのメタデータ識別モデル２３８を含む。システムはさらに、入力電子文書２１０のメタデータカテゴリを取得する画像ベースのメタデータ識別モデルの分類精度を補足するためのファジーテキストマッチングプロセス２４０を含む。【選択図】図２

Description

本開示は、階層型の、文書の分類ならびに文書のメタデータおよび属性の認識／識別に関する。

相互参照
本特許出願は、参照により本願明細書にその全体が援用される、２０１７年１１月１３日に米国特許庁に出願された米国特許出願第１５／８１０，８８５号の優先権を主張する。

電子文書は、埋め込まれたテキストおよび画像を含むこともある。それらは、様々な用途で作成されて、様々な電子ファイルフォーマットで生成され得る。電子文書ファイルの各ページはさらに、電子文書ファイルのコンテンツまたはヘッダに直接埋め込まれることも埋め込まれないこともあるメタデータおよび属性に関連する場合もある。自動化された電子文書の分類ならびに電子文書の各ページに関連するメタデータおよび属性の認識／識別は、これら電子文書の整理、アーカイブおよびより効率的な使用を促進し得る。

本開示の一側面によれば、システムは、
メタデータフィールド内に編成されたメタデータデータ要素を含むデータベースであって、メタデータフィールドは、メタデータカテゴリデータ要素を含んだメタデータカテゴリフィールドを少なくとも含む、データベースと、
機械学習アルゴリズムに基づいて確立されたテキストベースの文書分類器モデル、メタデータカテゴリ識別モデルおよびファジーテキストマッチャーを記憶するメモリと、
データベースおよびメモリと通信しているシステム回路構成であって、
電子文書を受信し、
テキストベースの文書分類器モデルを使用して、電子文書が所定のセットの文書カテゴリに属すると判断するのに応答して、
電子文書に対応する画像を取得し、
画像と、メタデータカテゴリフィールドの第１のメタデータカテゴリデータ要素との第１の関連を、メタデータカテゴリ識別モデルを使用して取得し、
電子文書と、データベースのメタデータデータ要素のサブセットとの第２の関連群を、ファジーテキストマッチャーを使用して取得し、
第１のメタデータカテゴリデータ要素と、データベースのメタデータデータ要素のサブセットに対応するメタデータカテゴリデータ要素のセットとの中で、単一のメタデータカテゴリデータ要素を、電子文書のラベルとして、第１の関連および第２の関連群に基づき決定する、
ように構成されたシステム回路構成と、
を含んでもよい。

一部の実装において、システム回路構成は、電子文書を対応するテキスト文書に変換するようさらに構成されてもよく、システム回路構成は、
分類結果を取得するために、対応するテキスト文書をテキストベースの文書分類器モデルに入力することと、
分類結果が所定のセットの文書カテゴリ中にあると判断することと、
により、電子文書が所定のセットの文書カテゴリに属すると判断するよう構成されてもよい。

一部の実装において、システム回路構成は、電子文書に対応する画像から関心対象領域を取得するようさらに構成されてもよく、
システム回路構成は、メタデータカテゴリ識別モデルを関心対象領域に適用することにより第１の関連を取得するよう構成されてもよい。

一部の実装において、関心対象領域は画像の一部を含んでもよい。

一部の実装において、システム回路構成は、
画像に対する関心対象領域の位置およびサイズを決定することと、
画像から関心対象領域を取得するために、関心対象領域の位置およびサイズに従って画像を切り取り、さらに／またはその形を変更し、さらに／または整列し直すことと、
により、電子文書に対応する画像から関心対象領域を取得するよう構成されてもよい。

一部の実装において、システム回路構成は、
画像に対する関心対象領域の位置およびサイズを決定することと、
切り取られた画像を取得するために、関心対象領域の位置およびサイズに従って画像を切り取ることと、
切り取られた画像を、関心対象領域を取得するために前処理することと、
により、電子文書に対応する画像から関心対象領域を取得するよう構成されてもよい。

一部の実装において、関心対象領域は、画素の配列を含んでもよく、切り取られた画像を前処理することは、画素分解能の低減と、ゆがみの修正とのうちの少なくとも１つを含んでもよい。

一部の実装において、システム回路構成は、
電子文書を表現するために、電子文書に含まれるテキストのｎグラムのセットを抽出することと、
データベースのメタデータデータ要素のうちｎグラムのセットと一致したサブセットを識別して第２の関連群を取得するために、ｎグラムのセットとデータベースのメタデータデータ要素との間のファジーマッチングを実行することと、
により、ファジーテキストマッチャーを使用して、電子文書と、データベースのメタデータデータ要素のサブセットとの第２の関連群を取得するよう構成されてもよい。

一部の実装において、ファジーマッチングを実行することは、
電子文書のｎグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、ｎグラムのセットと、データベースのメタデータデータ要素との間のファジーマッチングを実行することと、
ｎグラムのセットと最も一致したメタデータデータ要素の集合の対応する関連群の、重み付けされた比較によって、メタデータデータ要素のサブセットを識別することと、
を含んでもよい。

一部の実装において、ｎグラムのセットは、ユニグラムのセット、バイグラムのセットおよびトライグラムのセットを含んでもよい。

一部の実装において、ｎグラムのセットと、データベースのデータ項目との間のファジーマッチングを実行することは、ユニグラムのセット、バイグラムのセットおよびトライグラムのセットに異なる重みをかけることを含んでもよい。

一部の実装において、トライグラムのセットに、バイグラムのセットよりも大きな重みが与えられてもよく、バイグラムのセットに、ユニグラムのセットよりも大きな重みが与えられてもよい。

本開示の一側面によれば、方法は、
メモリとシステム回路構成とを有するシステムにより電子文書を受信するステップと、
機械学習アルゴリズムに基づいて確立されてメモリに記憶されたテキストベースの文書分類器モデルを使用して、電子文書が所定のセットの文書カテゴリに属すると判断するステップに応答して、
電子文書に対応する画像を取得するステップと、
画像と、メタデータカテゴリのセットの中の第１のメタデータカテゴリとの第１の関連を、メモリに記憶されたメタデータカテゴリ識別モデルを使用して取得するステップであって、メタデータカテゴリのセットは、メタデータカテゴリフィールドを含むメタデータフィールドに編成されたメタデータデータ要素を含むシステムのデータベース内のメタデータカテゴリフィールドにデータ要素として記憶される、ステップと、
電子文書と、データベースのメタデータデータ要素のサブセットとの第２の関連群を、メモリに記憶されたファジーテキストマッチャーを使用して取得するステップと、
第１のメタデータカテゴリと、データベースのメタデータデータ要素のサブセットに対応するメタデータカテゴリのセットとの中で、単一のメタデータカテゴリを、第１の関連および第２の関連群に基づいて、電子文書のラベルとして決定するステップと、
を含んでもよい。

一部の実装において、本方法は、電子文書を対応するテキスト文書に変換するステップをさらに含んでもよく、電子文書が所定のセットの文書カテゴリに属すると判断するステップは、
分類結果を取得するために、対応するテキスト文書をテキストベースの文書分類器モデルに入力するステップと、
分類結果が所定のセットの文書カテゴリ中のものであると判断するステップと、
による。

一部の実装において、本方法は、電子文書に対応する画像から関心対象領域を取得するようさらに構成されてもよく、第１の関連を取得するステップは、メタデータカテゴリ識別モデルを関心対象領域に適用するステップを含んでもよい。

一部の実装において、電子文書に対応する画像から関心対象領域を取得するステップは、
画像に対する関心対象領域の位置およびサイズを決定するステップと、
画像から関心対象領域を取得するために、関心対象領域の位置およびサイズに従って画像を切り取り、さらに／またはその形を変更し、さらに／または整列し直すステップと、
を含んでもよい。

一部の実装において、電子文書に対応する画像から関心対象領域を取得するステップは、
画像に対する関心対象領域の位置およびサイズを決定するステップと、
切り取られた画像を取得するために、関心対象領域の位置およびサイズに従って画像を切り取るステップと、
切り取られた画像を、関心対象領域を取得するために前処理するステップと、
を含んでもよい。

一部の実装において、電子文書と、データベースのメタデータデータ要素のサブセットに対応するメタデータカテゴリのセットとの第２の関連群を取得するステップは、
電子文書を表現するために、電子文書に含まれるテキストのｎグラムのセットを抽出するステップと、
データベースのメタデータデータ要素のうちｎグラムのセットと一致したサブセットを識別して第２の関連群を取得するために、ｎグラムのセットとデータベースのメタデータデータ要素との間のファジーマッチングを実行するステップと、
を含んでもよい。

一部の実装において、ファジーマッチングを実行するステップは、
電子文書のｎグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、ｎグラムのセットと、データベースのメタデータデータ要素との間のファジーマッチングを実行するステップと、
ｎグラムのセットと最も一致したメタデータデータ要素の集合の対応する関連群の、重み付けされた比較によって、メタデータデータ要素のサブセットを識別するステップと、
を含んでもよい。

本開示の１つ以上の実装の詳細は、添付の図面および後述の説明に記載されている。本開示の他の特徴および利点は、本記載および図面から、さらに特許請求の範囲から明らかとなる。

階層型の電子文書の分類およびメタデータ認識／識別を実装する例示的なコンピュータシステムを示す。階層型の電子文書の分類およびメタデータ識別の例示的な実装のための論理およびデータフローを示す。階層型の電子文書の分類およびメタデータ認識／識別のためのプロセスの一部として実装され得る、例示的なテキストベースの文書分類器モデルを確立するための論理およびデータフローを示す。階層型の電子文書の分類およびメタデータ認識／識別のためのプロセスの一部として実装され得る、例示的な画像ベースのメタデータ認識／識別モデルを確立するための論理およびデータフローを示す。畳み込みニューラルネットワーク技術に基づき実装される画像ベースのメタデータ認識／識別モデリングプロセスを示す。階層型の電子文書の分類およびメタデータ認識／識別のためのプロセスの一部として実装され得る、例示的なファジーテキストマッチャーを確立するための論理およびデータフローを示す。

電子文書は、ページ内に配置されたテキスト、画像およびその他コンポーネントを含み得る。電子文書はさらに、ＰｏｓｔＳｃｒｉｐｔ、ＰＤＦおよびＸＭＬなどのページ記述言語、ならびにＭｉｃｒｏｓｏｆｔＷｏｒｄなどのバイナリファイルフォーマットに基づくファイルフォーマットを含むがこれらに限定されない、様々な電子ファイルフォーマットで記憶され得る。ページ記述言語は、例えば、文書ページの中の様々なコンポーネントを、それらのコンテンツならびに位置およびレイアウトの関係を含めて指定するために使用され得る。具体的には、文書ページに含まれるテキスト情報は、フォントおよび位置／レイアウト情報を備えた文字ストリングとして表現されるプレーンテキストデータコンポーネントとして埋め込まれることも、またはビットマップ画像コンポーネントとして埋め込まれることもある。一例において、電子文書ページ全体が、埋め込まれたテキスト情報ならびにその他グラフィカル情報およびレイアウト情報を伝える、ビットマップ画像である場合もある。具体的には、紙の情報源を光学的にスキャンしてデジタル化することにより取得される電子文書は、画像のビットマップページを含み得る。

電子文書は、様々な情報源に由来し、異なるコンテンツを含み得る。例えば文書ファイルの形態の電子文書はさらに、異なるコンテンツをそれぞれ含んだ複数のページを含むこともある。自動的な文書認識、識別、分類およびカタログ登録タスクは、電子文書の大規模な集合から関連ページを識別することを必要として、関連ページそれぞれからメタデータを抽出するかもしれない。そのようなメタデータ認識／識別は、機械学習技術に基づき作成されたコンテンツ認識／識別および／または分類器モデルを使用して達成され得る。ここで、メタデータという用語は、電子文書ページの属性を広く指し得る。この属性は、例えば対応する電子ファイルのヘッダには含まれないこともある。例えば、電子文書の集合は、複数ページのベンダの請求書を、その他多数の情報の中に含むかもしれない。そのような事例において、メタデータとは、電子文書の集合に含まれる請求書に関連するベンダの名前またはＩＤを指し得る。電子文書ページのそのようなメタデータは、例えばベンダの名前／ＩＤのセットなど、定義済みセットのメタデータカテゴリに属することもある。メタデータ情報は、電子文書のテキスト、グラフィックまたはレイアウトに埋め込まれ得る。そのようなメタデータの認識／識別は、関心対象情報の抽出、ラベル付け、電子文書の整理を改善する支援となるかもしれない。「電子文書」という用語は、通常、複数のページを含み得る電子ファイルを指すために使用されるかもしれないが、下記の開示では、説明を簡単にするために、「ページ」という用語と同義語として使用される。よって、文書ページの集合の各ページが、電子文書と呼ばれることもあり、文書の集合が、電子文書ファイルおよびその他情報源からパーズおよび抽出されたページ群を指すこともある。

特定の関心対象カテゴリのもの（例えばベンダの請求書）でありメタデータ認識／識別を必要とする電子文書（またはページ）は、電子文書の大規模な集合のうち小さな割合にすぎないかもしれない。電子文書の大規模な集合の中で直接のメタデータ認識／識別を提供する機械学習アルゴリズムに基づくモデルは、一定水準のメタデータ認識／識別精度を達成するために、多数の文書特徴、巨大な探索空間を必要とするかもしれない。したがって、そのようなモデルの作成および更新は、過度な量の計算資源を消費するかもしれない。それにもかかわらず、結果として生じるモデルは、例えばベンダの請求書に関係のない文書ページからのノイズが原因で不正確かもしれない。さらに、メタデータ情報が電子文書内のテキスト情報またはグラフィカル情報およびレイアウト情報に埋め込まれる場合もあるので、テキスト認識／識別技術のみまたは画像認識／識別技術のみに基づく単一モデルは、全般的に満足のいくメタデータ認識／識別の精度を提供するには足りないかもしれない。

下記の開示は、精度を改善し、かつ同時に、モデル作成、モデル更新および入力電子文書に関する特徴計算中の計算要件を軽減するたに、メタデータ認識／識別の問題に対する段階的な階層型手法を提供する。１つの例示的な実装において、段階的なメタデータ認識／識別手法は、例えばテキストベースの文書分類およびフィルタリング段階、画像ベースのメタデータ認識／識別段階、およびメタデータ認識／識別の精度をさらに改善するための補足的なファジーテキストマッチング段階を伴う複数の（例えば３つの）階層型段階を含む。テキストベースの文書分類および画像ベースのメタデータ認識／識別のためのモデルは、それぞれ、テキスト分類および画像分類のための任意の適切な機械学習アルゴリズムに基づいてもよい。「メタデータ識別」という用語と「メタデータ認識」という用語とは、同義語として使用され、入力電子文書に埋め込まれたテキストメタデータ情報（例えばベンダの名前）および何らかの特定のメタデータ（例えば特定のベンダ）に関連する特定の文書タイプ（例えばベンダの請求書）に特徴的な入力電子文書内のグラフィカル／レイアウトメタデータパターンの認識／識別の両方を指し得る。

１つの実装において、テキストベースの文書分類器モデルが、入力電子文書を、例えばベンダの請求書およびその他ベンダ文書カテゴリを含む、定義済みセットの文書カテゴリに分類するために使用されてもよい。定義済みセットの文書カテゴリの中のカテゴリに分類されたが関心対象ではない電子文書は、フィルタリングされてもよい。よって、関心対象カテゴリに属する文書のみが、階層型手法の次の段階においてメタデータ情報の抽出のためにメタデータ識別モデルにより処理される必要がある。入力電子文書の中の、より小さなセットの電子文書（例えばベンダの請求書）のみがさらに分析される必要があるので、機械学習技術に基づくメタデータ識別モデルの作成は、ターゲットがより絞られた、より狭い範囲の訓練およびテストコーパスに依拠でき、より良く定義された機械学習機能に依拠でき、精度がより高く計算的負担がより軽い、画像ベースのメタデータ識別モデルが提供される。特徴的なメタデータ特徴は、多くの場合、入力電子文書内のレイアウトコンポーネントおよびグラフィカルコンポーネント内に埋め込まれる可能性があるので、１つの実装において、メタデータ識別モデルは、画像認識および分類技術に基づいてもよい。例えば、特定のベンダ（ベンダの固有の名前またはＩＤを持つ）は、このベンダに固有のレイアウト特徴またはグラフィカル特徴を含んだ請求書フォーマットを使用するかもしれない。電子文書内のテキストコンテンツは実体の名前およびＩＤ情報をも含むかもしれないが、入力電子文書内の実体の名前およびＩＤ情報は多くの場合、電子文書を制作して電子文書に含まれる請求書を発行する実体以外の実体と関係し得るので、テキスト認識を介したメタデータの識別はそれほど正確でないかもしれない。

一部の事例において、入力電子文書は、画像ベースのメタデータ識別モデルにより特定のメタデータカテゴリ（例えば特定のベンダの名前／ＩＤ）に属すると識別されるが識別信頼度スコアは低いかもしれない。これは例えば、画像ベースのメタデータ識別モデルが確立されたとき訓練データコーパスに含める請求書が利用可能でなかったベンダに、入力電子文書が属する場合に発生し得る。このような状況では、入力電子文書内のテキストの特徴と、独立したメタデータデータベース内のメタデータ項目との比較の実行に基づく、階層型手法の補足的なファジーテキストマッチャーが、画像ベースのメタデータ識別モデルの精度を向上させる支援となるかもしれない。ファジーテキストマッチャーは、画像ベースのメタデータ識別モデルにより行われたメタデータ識別を承認するか、または入力電子文書について異なるがより確からしいメタデータカテゴリを提案することによるか、いずれかをしてもよい。ファジーテキストマッチャーにより依拠されるメタデータデータベースは、画像ベースのメタデータ識別モデルを確立するための訓練データセット（例えばベンダの請求書）においては対応関係がないかもしれない、例えばベンダの名前およびＩＤなどのメタデータカテゴリを対象とする、より広範囲にわたるメタデータのセットを含んでもよい。

図１において、入力電子文書のメタデータ識別のためのシステム１００が、コンピュータ１０１により実装されるものとして示されている。コンピュータ１０１は、通信インターフェース１０２と、システム回路構成１０４と、入出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）インターフェース１０６と、ストレージ１０９と、例えばローカルマシンもしくはリモートマシン上で実行されているウェブブラウザにおけるリモート表示のために、またはローカルでマシンインターフェース１１０を生成する表示回路構成１０８とを含んでもよい。マシンインターフェース１１０およびＩ／Ｏインターフェース１０６は、ＧＵＩ、タッチセンシティブディスプレイ、音声または顔認識入力、ボタン、スイッチ、スピーカならびにその他ユーザインターフェース要素を含んでもよい。Ｉ／Ｏインターフェース１０６のさらなる例には、マイクロフォン、ビデオおよび静止画カメラ、ヘッドセットおよびマイクロフォン入出力ジャック、ユニバーサルシリアルバス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）コネクタ、メモリカードスロットならびにその他のタイプの入力が含まれる。Ｉ／Ｏインターフェース１０６はさらに、磁気または光学媒体インターフェース（例えばＣＤＲＯＭまたはＤＶＤドライブ）、シリアルおよびパラレルバスインターフェースならびにキーボードおよびマウスインターフェースを含んでもよい。

通信インターフェース１０２は、無線送信機および受信器（「送受信機」）１１２、ならびに送受信機１１２の送信および受信回路構成により使用される任意のアンテナ１１４を含んでもよい。送受信機１１２およびアンテナ１１４は、例えば任意のバージョンのＩＥＥＥ８０２．１１、例えば８０２．１１ｎまたは８０２．１１ａｃなどに基づくＷｉ−Ｆｉネットワーク通信をサポートしてもよい。通信インターフェース１０２は、有線送受信機１１６をさらに含んでもよい。有線送受信機１１６は、任意のタイプのイーサネット、データオーバケーブルサービスインターフェース仕様（ＤＯＣＳＩＳ：ｄａｔａｏｖｅｒｃａｂｌｅｓｅｒｖｉｃｅｉｎｔｅｒｆａｃｅｓｐｅｃｉｆｉｃａｔｉｏｎ）、デジタル加入者回線（ＤＳＬ：ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ）、同期型光ネットワーク（ＳＯＮＥＴ：ＳｙｎｃｈｒｏｎｏｕｓＯｐｔｉｃａｌＮｅｔｗｏｒｋ）または他のプロトコルなど、広範な通信プロトコルのいずれかのための物理レイヤインターフェースを提供してもよい。

ストレージ１０９は、文書分類モデル、メタデータ識別モデルおよびファジーテキストマッチングモデルを構築、更新および運用するための様々な初期、中間または最終のデータまたはモデルを格納するために使用されてもよい。ストレージ１０９はさらに、文書分類モデルおよびメタデータ識別モデルを作成するために使用されるデータコーパスを格納してもよい。ストレージ１０９はさらに、ファジーテキストマッチングモデルのために必要なメタデータのデータベースを実装するために使用されてもよい。ストレージ１０９は、集中型であっても分散型であってもよい。例えばストレージ１０９は、クラウドコンピューティングサービスプロバイダによりリモートでホストされてもよい。

システム回路構成１０４は、ハードウェア、ソフトウェア、ファームウェアまたはその他回路構成を任意の組み合わせで含んでもよい。システム回路構成１０４は、例えば、１つ以上のシステムオンチップ（ＳｏＣ：ｓｙｓｔｅｍｓｏｎａｃｈｉｐ）、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、マイクロプロセッサ、個別のアナログおよびデジタル回路ならびにその他回路構成を用いて実装されてもよい。システム回路構成１０４は、カスタマイズされたグラフナレッジベースの構築、メンテナンスおよび適用に関係した、求められる任意の機能性の実装の一部である。単に一例として、システム回路構成１０４は、１つ以上の命令プロセッサ１１８およびメモリ１２０を含んでもよい。メモリ１２０は、例えば、制御命令１２４およびオペレーティングシステム１２２を格納する。１つの実装では、命令プロセッサ１１８は、制御命令１２４およびオペレーティングシステム１２２を実行して、文書分類、メタデータ識別およびファジーテキストマッチングのためのモデルに関係する任意の望ましい機能性を実行する。

図２は、図１のコンピュータシステム１００に実装される階層型の電子文書の分類およびメタデータ識別のための例示的な論理およびデータフロー２００を示す。論理およびデータフロー２００は、テキストベースの文書分類およびフィルタリングプロセス２２０のための論理およびデータフロー、画像ベースのメタデータ識別プロセス２３０のための論理およびデータフローならびにファジーテキストマッチングプロセス２４０のための論理およびデータフローを含む。テキストベースの文書分類およびフィルタリングプロセス２２０、画像ベースのメタデータ識別プロセス２３０およびファジーテキストマッチングプロセス２４０は、図２により示されるように階層的に関係する。具体的には、テキストベースの文書分類およびフィルタリングプロセス２２０のフィルタリングされた出力文書２２８が、画像ベースのメタデータ識別プロセス２３０およびファジーテキストマッチングプロセス２４０に入力される。

図２のテキストベースの文書分類およびフィルタリングプロセス２２０について、入力電子文書２１０がまずテキスト文書に変換される（２２２）。入力電子文書は、様々な情報源からの文書ページを含むかもしれない。例えば、複数ページの電子文書ファイルは、それぞれが１ページに対応する複数の文書に分離されてもよい。入力電子文書のテキスト文書への変換は、例えば光学式文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）を介して達成されてもよい。よって、入力電子文書に含まれるテキスト情報が抽出されて、文字ストリングに変換されてもよい。変換されたテキスト文書は、テキストベースの文書分類器モデル２２６により分類されてもよい（２２４）。具体的には、変換されたテキスト文書のテキスト特徴が、定義済みのテキスト特徴計算アルゴリズムを使用して計算されてもよい（２２５）。計算されたテキスト特徴は、変換されたテキスト文書を定義済み文書カテゴリのセットの中の１つに分類するテキストベースの文書分類器モデルに入力されてもよい（２２６）。定義済み文書カテゴリのセットは、ベンダの請求書ベンダの提案書、製造カタログ、製品マニュアル、被保証人、供給契約書および同様のものを含んでもよいが、これらに限定はされない。

１つの実装において、入力電子文書がフィルタリングされ、関心対象である文書カテゴリの中にない電子文書が除去されてもよい（２２７）。よって、関心対象の電子文書（２２８）のみが保持され、画像ベースのメタデータ識別プロセス２３０およびファジーテキストマッチングプロセス２４０によりさらに分析される。例えば、ベンダの請求書が、関心対象である唯一の文書カテゴリであってもよい。よって、テキストベースの文書分類プロセス２２０によりベンダの請求書として分類された電子文書のみが、メタデータの識別のためにさらに分析されてもよい。

図２の画像ベースのメタデータ識別プロセス２３０について、フィルタリングされた文書２２８の画像がまず取得されてもよい（２５０）。各画像は１つの文書（ページ）に対応してもよい。１つの実装では、フィルタリングされた電子文書２２８の一部に対応する入力文書２１０は、既に画像フォーマットであるかもしれず、当該電子文書は画像に変換される必要がないかもしれない。その他一部の入力電子文書２１０は、もともと画像以外のフォーマットであるかもしれず、よって２２０でのフィルタリングプロセスの後、それらは画像に変換されるとよい（２５０）。

次に、関心対象である文書カテゴリに属する入力電子文書の画像それぞれが処理されて、関心対象領域が抽出されてもよい（２３４）。各画像または文書ページの関心対象領域は、画像の中の定義済みのサイズおよび位置の構成部分または一部であってもよい。例えば、関心対象領域は、画像の左上の方形であってもよい。関心対象領域の抽出は、画像ベースの識別プロセス２３０により処理される必要があると考えられるデータの量をさらに削減する支援をする。関心対象領域の位置およびサイズの事前決定は、過去のデータに基づいてもよい。例えば、仮にベンダの請求書が関心対象文書カテゴリであり、かつベンダの請求書が通常、ベンダのメタデータを埋め込んだテキスト情報またはグラフィカル情報を、左上の方形に含んでいるならば、関心対象領域は画像の左上の方形として定義済みであってもよい。画像は、関心対象領域を取得するために、切り取られ、さらに／または形を変更され、さらに／または整列し直されてもよい。

情報を伝えるメタデータを様々なベンダがその請求書の異なる部分に配置し得る状況に対処するために、関心対象領域について定義済みの別々のサイズおよび位置をそれぞれ指定する図２の２３０の並列プロセスが複数、実行されてもよい。並列メタデータ識別プロセス２３０の分析結果が結合されて、文書のメタデータ情報が判断されてもよい。例えば、並列プロセス２３０のうちの１つは、画像の左上の方形を抽出してもよく、並列プロセス２３０の別の１つは、画像の右上の方形を抽出してもよい。後述のとおり、画像ベースのメタデータ識別モデリング２３７は、（バイナリ分類器でなく）入力された関心対象領域が定義済みセットのメタデータカテゴリそれぞれに関連する確率を出力する回帰アルゴリズムに基づいてもよい。画像ベースの並列メタデータ識別プロセス２３０が実行されている状況において、並列メタデータ識別プロセスにより識別されたメタデータカテゴリの中で、特定の入力電子文書について最も確からしいメタデータカテゴリが、その入力電子文書のメタデータカテゴリとして決定されてもよい。

１つの実装では、抽出された関心対象領域は、画像ベースのメタデータ識別モデリング２３６の前に前処理されてもよい（２３４）。関心対象領域は、サイズ変更され、さらに／または形を変更され、さらに／または整列し直されてもよい。関心対象領域の前処理は、例えば関心対象領域の解像度低減を含んでもよい。特に、各関心対象領域の画像画素数が、所定数の隣接画素をまとめ合わせて平均することにより削減されてもよい。例えば、２００かける２００の画像画素を有する関心対象領域が、５０かける５０画素に削減されてもよい。典型的には、入力電子文書に対応する画像に埋め込まれたメタデータ情報は相対的に低い解像度で識別可能であろうから、そのような解像度低減は、画像ベースのメタデータ識別プロセス２３０の計算要件を多量の情報損失なくして低減する支援となり得る。抽出関心対象領域の前処理はさらに、関心対象領域の形の変更を含んでもよい。そのような形の変更は、例えば、関心対象領域におけるゆがみを検出して整えるように設計されてもよい。そのようなゆがみは、例えば、入力電子文書が、元の紙の文書情報源から光学スキャナまたはカメラを使用して生成されるともたらされるかもしれない。例えばベンダの請求書は、典型的には、平行線を有する表を含むであろう。よって、関心対象領域を前処理するときに、まっすぐでない、または平行でない線が関心対象領域において検出されて、修正されてもよい。例えば、ゆがみの修正は、関心対象領域の画素化データに適用され得る変換行列を求めることにより達成されてもよい。

フィルタリングされた電子文書の前処理された関心対象領域は、次に、画像ベースのメタデータ識別モデリング２３６により分析されてもよい。具体的には、変換されたテキスト文書の画像特徴が、画像特徴抽出のための定義済みアルゴリズムを使用して抽出または学習されてもよい（２３７）。抽出された画像特徴は、関心対象領域を定義済みのメタデータカテゴリのうちの１つに分類する画像ベースのメタデータ識別モデル２３８に入力されてもよい。画像ベースのメタデータ識別モデルは、例えば回帰アルゴリズムに基づいてもよく、したがって、特定の関心対象領域が定義済みメタデータカテゴリそれぞれに関連する確率を求めるよう設計されてもよい。例えば、画像ベースのメタデータ識別モデルは、ベンダ請求書カテゴリの入力電子文書の特定画像からの関心対象領域が、定義済みグループのベンダの名前またはＩＤのそれぞれに関連する確率を求めるよう設計されてもよい。１つの例示的な実装において、画像特徴抽出２３７および画像分類器モデルは、畳み込みニューラルネットワークなどのニューラルネットワーク法に基づいてもよい。

画像ベースのメタデータ識別モデリング２３６は、入力された一部の関心対象領域について正確なメタデータ識別を提供できないかもしれない。例えば、入力された関心対象領域が画像ベースのメタデータ識別モデリング２３６により判断された任意の特定の定義済みメタデータカテゴリに関連する確率は、他の定義済みメタデータカテゴリの中で突出せず、メタデータ識別プロセス２３６が、入力されたこの関心対象領域に対応する画像に対するメタデータカテゴリの指定について曖昧であることを示すかもしれない。或る状況では、画像ベースのメタデータ識別モデリング２３６により処理される入力電子文書の関心対象領域の一部に対応するメタデータカテゴリの画像は、画像ベースのメタデータ識別モデル２３８の訓練データコーパスの一部でないかもしれない。ほかの状況では、訓練データコーパスにおいて使用された特定のメタデータカテゴリのテンプレート画像が、発展して変化するかもしれない。さらにほかの一部状況では、訓練データコーパス内の同じテンプレート画像が、複数のメタデータカテゴリに対応するかもしれない（例えば、同じ請求書テンプレート画像が異なる複数のベンダの名前またはＩＤに対応する）。こうした様々な状況において、図２の画像ベースのメタデータ識別モデリング２３６は、入力された関心対象領域の正しい単一のメタデータカテゴリを、相当な精度で明確に識別することはできないかもしれない。したがって、当該関心対象領域および対応する入力電子文書のメタデータ識別はさらに、図２のファジーテキストマッチングプロセス２４０により補足されてもよい。

１つの実装において、ファジーテキストマッチングプロセス２４０は、ファジーテキストマッチングモデル２４２と通信しているメタデータデータベース２４４を含む。メタデータデータベース２４４は、画像ベースのメタデータ識別プロセス２３０のために作成された画像ベースのメタデータ識別モデル２３８のための訓練データコーパスに欠けていたまたはその他含まれていなかった、電子文書に対応するメタデータを含んでもよい。例えば、過去、現在および未来のベンダの完全なリストがあってもよい。ベンダの名前およびＩＤなどのこれらベンダのメタデータが、メタデータデータベース２４４に維持されてもよい。実際の請求書はこれらベンダのサブセットにしか存在していないかもしれない。残りの潜在的なベンダからの請求書は、以前に受領されたことがないかもしれない。それに応じて、上記の画像ベースのメタデータ識別モデル２３８のための訓練およびテストコーパスは、潜在的なベンダのサブセットの、請求書の文書または画像しか含まないかもしれない。入力電子文書がこれらの潜在的なベンダの１つにより発行された請求書を含むと、画像ベースのメタデータ識別モデル２３８は、これらの入力文書のメタデータカテゴリを正確に判断できないかもしれない。

このような状況において、これらの潜在的なベンダのテキストメタデータがメタデータデータベース２４４において利用可能であるかもしれないので、当該情報がファジーテキストマッチングプロセス２４０により使用されて、これらの潜在的なベンダに関連する入力電子文書についてより良いメタデータ識別が提供されるとよい。具体的には、ファジーマッチングプロセス２４０は、入力電子文書に含まれるテキスト情報にほぼ一致するメタデータデータベース２４４内のメタデータエントリを識別することを伴ってもよい。これらの電子文書の最終的なメタデータ識別は、画像ベースのメタデータ識別プロセス２３０により提供された確率と、ファジーテキストマッチングプロセス２４０による提案との両方を考慮して判断されてもよい（２６０）。

メタデータデータベース２４４内のテキストメタデータ情報は、様々な情報源から抽出されてもよい。これらの情報源は、テキストベースであってもよい。あるいは、これらの情報源は画像ベースであってもよい。例えば、請求書以外でベンダに関係する文書の画像が利用可能かもしれず、これらの画像が、例えばＯＣＲプロセスを介してテキスト情報に変換されてもよく、変換されたテキスト情報からメタデータがさらに抽出されてメタデータデータベース２４４により維持されてもよい。

図３は、図２のテキストベースの文書分類プロセス２２０において使用され得る例示的な文書分類器モデル２２６を確立するための論理およびデータフロー３００を示す。文書分類器モデルの作成は、テキスト文書のコーパス、または定義済みセットの文書カテゴリによりラベル付けされた文書コーパス３１０を構築することを伴ってもよい。文書分類器モデル２２６の作成はさらに、テキスト特徴抽出プロセス３２０および機械学習アルゴリズムに基づく反復的な文書分類器モデリング３３０をさらに含んでもよい。

定義済みセットの文書カテゴリを用いてラベル付けされた文書コーパス３１０は、ラベル３１４付きの訓練テキスト文書セット３１２およびラベル３１８付きのテストテキスト文書セット３１６に分割されてもよい。定義済みセットの文書カテゴリは、電子文書の集合の範囲に基づき決定されてもよい。例えば電子文書は、ベンダの通信文書に関係してもよく、ベンダの請求書、ベンダの提案書、製品カタログ、製品マニュアル、保証書、供給契約書および同様のものを含んでもよい。このような例示的なカテゴリを用いて、電子文書が適宜ラベル付けされてもよい。コーパス３１０内の電子文書は、手動でラベル付けされてもよいし、あるいは自動化されたプロセスを使用してラベル付けされてもよい。

文書コーパス３１０内の電子文書を表現する多次元特徴空間が定義されてもよい。訓練文書セット３１２の中の各文書を多次元特徴空間において表現するために、多次元特徴空間がテキスト特徴のセットにより形成されてもよく、こうした特徴が当該文書からさらに抽出されてもよい（３２０）。訓練テキスト文書セット３１２内の各文書は、抽出された特徴により決定される座標を有する多次元特徴空間内の点に対応する多次元特徴空間内のベクトルにより表現されてもよい。その結果、文書分類器モデリングプロセス３３０において機械学習アルゴリズムは、多次元特徴空間において訓練テキスト文書セット中の同じ文書ラベルを備える文書を表現する各点が、機械学習アルゴリズムの評価関数に従って同じ１つの区画にほぼ入るように、多次元特徴空間のクラスタ化または区画化に使用され得るルールおよびパラメータを決定することを担当する。区画化された多次元特徴空間および対応するパラメータは、テキストベースの文書分類モデル２２６の基礎を形成する。

テキスト特徴空間の次元は定義済みであってもよい。例えば、テキスト特徴空間はバッグオブワーズ（ｂａｇｏｆｗｏｒｄｓ）を使用して決定されてもよい。多次元テキスト特徴空間を構築する他の実装は、概念的特徴空間、Ｎグラムに基づく文脈特徴空間、機械的に抽出された特徴空間、および文書構造特徴空間を含んでもよい。多次元特徴空間の次元数は、計算能力のために制限されてもよい。例えば、スコアリング関数が、特徴次元をランキングするために使用されてもよく、所定数の上位特徴次元のみが、テキストベースの文書分類器モデル２２６の多次元特徴空間を形成するために使用される。１つの実装において、テキスト特徴は、語または句のグループであってもよく、これらの語または句が文書コーパス３１０においてどの程度頻繁に出現するかによりこれらの特徴のランキングが決定されてもよい。

文書分類器モデリング３３０は、様々な分類アルゴリズムおよび回帰アルゴリズムを含む様々な機械学習アルゴリズムに基づいてもよい。これらの分類アルゴリズムおよび回帰アルゴリズムは、例えば、ランダムフォレスト回帰、線形回帰、ロジスティック回帰、単純ベイズ分類器、ベイジアンネットワーク、通常の最小二乗回帰、主成分回帰、および同様のものに基づいてもよい。複数のモデリングパラメータを有する評価関数がクラスタ化のために設計されてもよく、特徴空間において訓練テキスト文書セット中の同じ文書ラベルを備える文書を表現する各点が、同じ１つの区画にほぼ入るように、多次元特徴空間を区画化してもよい。モデリングパラメータは、テキストベースの文書分類器モデル２２６の基礎を形成する。確立された分類モデルはさらに、文書コーパス３１０内のテストテキスト文書セット３１６の使用に基づいてテストおよび改善されてもよい。具体的には、テストテキスト文書セット３１６内の文書の特徴が、同様に、抽出され（３２０）テキストベースの文書分類器モデル２２６に入力され、モデリングパラメータに従って分類されてもよい。結果として生じる分類結果が、テストテキスト文書ラベル３１８と比較されてもよい。文書分類器モデリング３３０が反復適用されて、結果として生じる文書分類器モデル２２６がテストテキスト文書セット３１６の分類において所定レベルの精度を達成するようにモデリングパラメータが精緻化されてもよい。最終的なテキストベースの文書分類器モデルが、図２のテキストベースの文書分類プロセス２２０において使用されるとよい。これに対応して、図２のテキスト特徴計算２２５は、図３の同特徴抽出プロセス３２０に従う。

図４は、図２の画像ベースのメタデータ識別プロセス２３０において使用され得る例示的な画像ベースのメタデータ識別モデル２３８を確立するための論理およびデータフロー４００を示す。画像ベースのメタデータ識別モデル２３８は、入力画像を所定のセットのメタデータカテゴリ（例えばベンダの名前またはＩＤ）に分類する画像分類器であってもよい。画像ベースのメタデータ識別モデルの作成は、定義済みセットのメタデータカテゴリを用いてラベル付けされた画像のコーパス４１０（例えば図２の関心対象領域の画像）を構築することを伴ってもよい。１つの実装では、画像ベースのメタデータ識別モデル２３８の作成はさらに、画像特徴抽出または学習（３２０）および機械学習アルゴリズムに基づく反復的な画像ベースのメタデータ識別モデリング４３０を含んでもよい。

定義済みセットのメタデータカテゴリを用いてラベル付けされた画像コーパス４１０は、ラベル４１４付きの訓練画像セット４１２およびラベル４１８付きのテスト画像セット４１６に分割されてもよい。定義済みセットのメタデータカテゴリは、画像コーパス４１０の中の画像の範囲に基づき決定されてもよい。例えば、画像コーパス４１０の中の画像は様々なベンダからの請求書に関係し得る。メタデータカテゴリはベンダの名前またはＩＤに対応し得る。したがって、画像コーパス４１０の中の画像は、このようなベンダの名前またはＩＤを用いて適宜ラベル付けされてもよい。コーパス内の画像は、手動でラベル付けされてもよいし、あるいは自動化されたプロセスを使用してラベル付けされてもよい。

図４の実装において、画像特徴抽出４２０と、機械学習アルゴリズムに基づく画像ベースのメタデータ識別モデリング４３０とは、別々のプロセスとされてもよい。具体的には、画像コーパス４１０の中の画像を表現するために、多次元画像特徴空間が決定または学習されてもよい。多次元画像特徴空間は、画像特徴のセットにより形成されてもよく、これらの画像特徴は、画像を多次元画像特徴空間において表現するために訓練画像セット４１２内の画像の中の各画像から学習および抽出されてもよい（４２０）。訓練画像セット内の画像の中の各画像は、抽出された画像特徴により決定される座標を有する多次元画像特徴空間内の点に対応する、多次元画像特徴空間内のベクトルにより表現されてもよい。その結果、画像ベースのメタデータ識別モデリングプロセス４３０の機械学習アルゴリズムは、訓練画像４１２のメタデータカテゴリラベル４１４を使用して、画像ベースのメタデータ識別モデル２３８のための基礎として使用され得るモデルのルールおよびパラメータを決定することを担当する。モデルのルールおよびパラメータは、テスト画像セット４１６およびテスト画像ラベル４１８の使用に基づいてさらに改善されてもよい。次に、最終的な画像ベースのメタデータ識別モデル２３８は、入力画像が所定のセットのメタデータカテゴリのうちのいずれか１つである確率を求めるために使用されてもよい。

あるいは、画像ベースのメタデータ識別モデリングは、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含むがこれに限定されない、多層深層学習技術に基づいて実装されてもよい。よって、画像特徴抽出２３７および画像ベースのメタデータ識別モデル２３８は、図５の例示的な論理およびデータフロー５００に示されるとおり、多層ＣＮＮとして一体化して実装されてもよい。

例示的なＣＮＮベースのメタデータ識別モデリング論理およびデータフロー５００は、ラベル付き訓練画像５１２を使用した画像特徴および分類モデルの反復学習（５６０および５７０）のための画像特徴抽出層５１０および分類層５４０を含んでもよい。具体的には、訓練画像５１２は、５１６により示されるとおり、Ｎ個の画像特徴（それぞれ画像パッチ５１４の形態）を使用して畳み込みフィルタリングされ、Ｎ個の特徴マップ５１８が取得される。Ｎ個の画像特徴はそれぞれ、ランダムに初期化される。図５の例では、訓練画像が、所定のサイズ、（５２６により示されるとおり）例えば３２かける３２に正規化される。各画像特徴の画像パッチのサイズは、所定のものであってもよい（例えば５１４により示されるとおり５かける５）。３２かける３２の訓練画像５１２は、畳み込みフィルタリング５１６の後、（５２４により示されるとおり）２８かける２８のＮ個の特徴マップ５１８になる。特徴マップの数Ｎ（５２２）は、画像特徴５１４の数に対応する。特徴マップ５１８内の各点、例えば点５２０は、画像特徴５１４のうちの１つと訓練画像５１２の５かける５のパッチとの畳み込みに対応する。５かける５の特徴５１４が３２かける３２の訓練画像全体にわたって移動すると２８かける２８の固有位置をもたらすので、本例の特徴マップ５１８のサイズは２８かける２８である。次に、特徴マップ５１８は、最大プーリングされてそのサイズが縮小され（５３２）、最大プーリングされた特徴マップ５２８が取得されるとよい。例えば最大プーリングは、各特徴マップを、所定数の、例えば２かける２の隣接する点のグループに分割し、グループ内の最大の点のみを維持してもよい。よって、図５の例における最大プーリングされた特徴マップ５２８は、Ｎ個の（５３０により示されるとおり）１４かける１４の特徴マップを含む。プロセス５１６および５３２は、複数の畳み込みおよび最大プーリング層において、上位の画像特徴を使用して繰り返されてもよい。結果として生じる最終的な最大プーリングされた特徴マップは、５３４においてベクトル化され全結合層５４２が取得されるとよい。一部の変質では、全結合層は複数の層として実装されてもよい。次に、全結合層（単数または複数）５４２を、例えばベンダＡ５４４、ベンダＢ５４６、ベンダＣ５４８またはベンダＤ５５０などの訓練画像のクラスラベルと相関させるとよい。

上記のプロセスは、順伝播５６０を表現する。初期はランダムな画像特徴５１４は、訓練画像５１２をその正しいラベルに分類する際のすべての誤りを最小化するように、逆伝播プロセス５７０により精緻化されるとよい。訓練画像のラベルと一致する最適な分類結果を提供する共通画像特徴を取得するために、順伝播プロセス５６０および逆伝播プロセス５７０が多数の訓練画像に対して反復実行される。最後に、入力画像が順伝播５６０により処理されて、入力画像がベンダＡ、Ｂ、ＣまたはＤのいずれかに関連する確率の予測が取得されてもよい。このように、ＣＮＮベースの画像分類プロセス５００が、図２の画像ベースのメタデータ識別モデリング２３６の実装に使用されてもよい。

図６は、図２のファジーテキストマッチングプロセス２４０として使用され得る例示的な論理およびデータフロー６００を示す。例示的なファジーテキストマッチングプロセスは、入力テキスト文書６４０からＮグラム６３２、６２４および６３６を抽出すること（６３０）、複数のメタデータデータ項目６１１を有するメタデータデータベース５１０にアクセスすること、および抽出されたＮグラムおよびメタデータデータ項目に対してファジーテキストマッチングアルゴリズム６５０を実行して、抽出されたＮグラムに一致する上位のメタデータデータ項目を取得することを含む。

入力電子文書のＮグラムとは、実質的に、入力電子文書の中の、定義済み長さのタームである。タームは、単一の語（ユニグラム）、２つの語（バイグラム）、３つの語（トライグラム）またはそれ以上を含み得る。例えば、文書のトライグラムは、文書において出現する連続した３語のパターンすべてを含むことができる。入力文書の特徴を表すために連続した複数の語のタームを使用することは、ファジーテキストマッチングプロセス６００における偽陽性を削減する支援となり得、ひいては図２の画像ベースのメタデータ識別プロセス２４０の精度を低下させずに補足し改善し得る。例えば、「Ｄｅｌｌ」という語は、ベンダのＤｅｌｌ，Ｉｎｃ．を指し示すこともあるが、メタデータカテゴリに関係するベンダの名前ではなく製品名として電子文書に出現する可能性もあるであろう。図６の例示は入力電子文書６４０からのユニグラム、バイグラムおよびトライグラムの抽出のみを示すが、より高次のＮグラムが同様に抽出されてもよい。図６のファジーマッチングプロセスに含められるＮグラムの次数の数値は、計算要件とモデリング精度の増大との間のトレードオフを考慮することにより決定されてもよい。

メタデータデータベース６１０は、テーブル６１１により表現されるメタデータデータ項目を含んでもよい。メタデータデータ項目は、行および列に論理的に配置されてもよい。一例では、行６２０、６２２、６２４、６２６および６２８が別々のベンダのメタデータを表現してもよい。列６１２、６１４、６１６および６１８は別々のタイプのメタデータを表現してもよい。６１１のデータ列は、代わりにメタデータフィールドと呼ばれることもある。列またはフィールドの１つ、例えばメタデータフィールド６１２は、定義済みのメタデータカテゴリを表現してもよい。よって、図２の入力電子文書は、メタデータフィールド６１２のメタデータデータ項目、例えばベンダＡ、ベンダＢ、ベンダＣおよびベンダＤのうちの１つによりラベル付けされることになる。他のメタデータフィールドは例えば、ベンダ住所フィールド６１４、ベンダ連絡先フィールド６１６およびベンダ電話番号フィールド６１８を含んでもよい。

入力文書６４０から抽出されたＮグラム６３２、６３４および６３６、ならびにメタデータデータ項目６１１が、ファジーテキストマッチングアルゴリズム６５０に入力されてもよい。１つの実装では、Ｎグラムとメタデータデータ項目との間のファジーマッチングが、各メタデータ列またはフィールドに対して実施されてもよい。６６０、６６２、６６４および６６６により示されるとおり、各メタデータフィールドの、最もよく一致する所定数のメタデータデータ項目が判断されてもよい。例えば、各メタデータフィールドにおいて上位２０個の一致が識別されてもよい。

ファジーマッチングは、各メタデータデータ項目と、入力文書の抽出Ｎグラム６３２、６３４および６３６すべてとの間に実行されてもよい。マッチングは重み付けされてもよく、例えばユニグラム、バイグラムおよびトライグラムに異なる重みが与えられる。より高次のＮグラムはより多くの構文情報を伝え得るので、例えば、トライグラムにバイグラムおよびユニグラムよりも大きな重みが与えられてもよく、バイグラムにユニグラムよりも大きな重みが与えられてもよい。

各メタデータフィールドからの上位の一致がさらに比較されて、所定数の最終的な一致が抽出されてもよい（６７０）。この比較プロセスにおいて、異なるフィールドに異なる重みが与えられてもよい。例えば、電話番号フィールド６１８よりも大きな重みが住所フィールド６１４に与えられてもよい。１つの例示的な実装では、最終的な上位３つのメタデータ項目が判断されるとよい。さらに、メタデータカテゴリフィールド６１２内の対応するデータ項目６７０が、最終的な上位一致メタデータカテゴリ６８０として識別されるとよい。一部の実装において、優先的な重みが、上位一致データ項目を複数有するメタデータ行に与えられてもよい。そのような選択的な重みが与えられるとよい理由は、同じ行内に一致データ項目が複数あることは、入力文書が、メタデータデータベースの当該の行に関連する実体の、より詳細な記述を含むことを示し、したがって、その文書が好適には当該の実体（またはメタデータカテゴリ）によりラベル付けされるとよいからである。

上記で開示された実装は、コンピューティング技術の改善を提供する。例えば、電子文書内のテキストデータは、文字ストリングデータ型および表現で処理され得る。本願明細書において開示される実装は、埋め込まれたテキストを備える文書パッチを、文書パッチのビットマップ画像を表現するデータ行列に変換し、よって、ハードウェアアクセラレーションされた行列操作を使用してより効率的に処理されるデータ構造を提供することを伴う。データ行列はさらに、行列データ構造の中のデータパターンの機械学習を介して認識され得る、埋め込みテキストのストリングコンテンツ以上の情報を含む。

上記の例示的な実装は、自動的な文書処理、識別および整理、例えば請求書の処理およびベンダの識別を促進する。同様の手法が、例えば（例えば宅配業者／物流サービスプロバイダにより）配達追跡において、文書を「配達済み票」として分類し配達済み票からベンダメタデータを抽出するために使用されてもよい。別の例として、上記の実装は、保険金請求処理において、自動車保険金請求、医療保険金請求および同様のものなど、別々のタイプの請求に請求文書を分類し、例えば医療系の請求のみから請求者メタデータ（例えば病院、クリニックおよび医師のメタデータ情報）を、または自動車保険金請求のみから製造業者メタデータ情報を抽出／識別するために使用されてもよい。

メタデータを識別するために画像分類を使用すること、および、より高い精度を達成するためまたは画像分類モデルの訓練画像が不完全であった場合の補足としてファジーテキストマッチングを使用すること、という原理は、産業および製造環境において広く適用され得る。例えば、電子機器の組立工場における電子部品の製造業者の認識が、電子機器製造業者のセットのロゴの画像認識に依拠してもよい。そのような画像ベースの認識はさらに、電子部品の画像からテキストを抽出し、抽出されたテキストと、画像ベースの分類モデルの訓練画像データベースよりも包括的であるとよい電子機器製造業者のメタデータデータベースとをファジーマッチングすることにより、補足されてもよい。よって、訓練画像の一部でなかったロゴを有する電子部品製造業者（例えば製造業者が新しいロゴに変更した）が、依然として、補足的なファジーテキストマッチングプロセスを介して相当な精度で識別されてもよい。

上記の開示は、テキストベースの文書分類および画像ベースのメタデータ識別を例として使用するが、分類問題を単純化して計算強度を軽減するために複数の分類または回帰モデルをカスケード接続する原理は、大きく多様な特徴セットおよび特徴空間が関与する他のシナリオに広く適用され得る。

上述した方法、デバイス、処理および論理は、多数の異なる形で、ハードウェアおよびソフトウェアの多数の異なる組み合わせにおいて実装されてもよい。例えば、各実装の全部または一部は、中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロコントローラもしくはマイクロプロセッサなどの命令プロセッサを含む回路構成、あるいは特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、プログラム可能論理デバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）もしくはフィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、あるいは個別論理か、またはアナログ回路コンポーネント、デジタル回路コンポーネントもしくはその両方を含む他の回路コンポーネントかを含む回路構成、あるいはその任意の組み合わせであってもよい。回路構成は、例として、相互接続された個別のハードウェアコンポーネントを含んでもよく、さらに／または単一の集積回路ダイ上で組み合わされてもよく、複数の集積回路ダイの間に分散されてもよく、または共通パッケージ内の複数の集積回路ダイの複数チップモジュール（ＭＣＭ：ＭｕｌｔｉｐｌｅＣｈｉｐＭｏｄｕｌｅ）に実装されてもよい。

回路構成はさらに、回路構成により実行される命令を含んでも、またはそれにアクセスしてもよい。命令は、フラッシュメモリ、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、またはコンパクトディスク読み取り専用メモリ（ＣＤＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ハードディスクドライブ（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）もしくはその他磁気ディスクもしくは光学ディスクなどの磁気ディスクもしくは光学ディスク、または別の機械可読媒体内もしくは機械可読媒体上など、一時的な信号以外の有形のストレージ媒体に記憶されてもよい。コンピュータプログラム製品などの製品が、ストレージ媒体と、媒体内または媒体上に記憶された命令とを含んでもよく、命令は、デバイスにおいて回路構成により実行されると、上述したまたは図面に示した処理のいずれかをデバイスに実装させてもよい。

各実装は、任意選択で複数の分散型処理システムを含む、複数のプロセッサおよびメモリの中などの複数のシステムコンポーネント間に、回路構成として分散されてもよい。パラメータ、データベース、および他のデータ構造は、別々に記憶および管理されてもよく、単一のメモリまたはデータベースに組み入れられてもよく、多数の異なる形に論理的および物理的に編成されてもよく、連結リスト、ハッシュテーブル、アレイ、レコード、オブジェクトまたは黙示のストレージメカニズムなどのデータ構造を含む、多数の異なる形で実装されてもよい。プログラムは、単一プログラムの一部（例えばサブルーチン）であっても、別々のプログラムであっても、いくつかのメモリおよびプロセッサに分散されていてもよく、または共有ライブラリ（例えばダイナミックリンクライブラリ（ＤＬＬ：ＤｙｎａｍｉｃＬｉｎｋＬｉｂｒａｒｙ））などのライブラリにおいてなど、多数の異なる形で実装されてもよい。例えばＤＬＬは、回路構成により実行されると、上述した、または図面に示された処理のいずれかを実行する命令を記憶してもよい。

様々な実装が具体的に記載された。しかしながら、その他多数の実装も可能である。

Claims

メタデータフィールド内に編成されたメタデータデータ要素を含むデータベースであって、前記メタデータフィールドは、メタデータカテゴリデータ要素を含んだメタデータカテゴリフィールドを少なくとも含む、前記データベースと、
機械学習アルゴリズムに基づいて確立されたテキストベースの文書分類器モデル、メタデータカテゴリ識別モデルおよびファジーテキストマッチャーを記憶するメモリと、
前記データベースおよび前記メモリと通信しているシステム回路構成であって、
電子文書を受信し、
前記テキストベースの文書分類器モデルを使用して、前記電子文書が所定のセットの文書カテゴリに属すると判断するのに応答して、
前記電子文書に対応する画像を取得し、
前記画像と、前記メタデータカテゴリフィールドの第１のメタデータカテゴリデータ要素との第１の関連を、前記メタデータカテゴリ識別モデルを使用して取得し、
前記電子文書と、前記データベースの前記メタデータデータ要素のサブセットとの第２の関連群を、前記ファジーテキストマッチャーを使用して取得し、
前記第１のメタデータカテゴリデータ要素と、前記データベースの前記メタデータデータ要素の前記サブセットに対応するメタデータカテゴリデータ要素のセットとの中で、単一のメタデータカテゴリデータ要素を、前記電子文書のラベルとして、前記第１の関連および前記第２の関連群に基づき決定する、
ように構成された前記システム回路構成と、
を含むシステム。
前記システム回路構成は、前記電子文書を対応するテキスト文書に変換するようさらに構成され、前記システム回路構成は、
分類結果を取得するために、前記対応するテキスト文書を前記テキストベースの文書分類器モデルに入力することと、
前記分類結果が前記所定のセットの文書カテゴリ中にあると判断することと、
により、前記電子文書が前記所定のセットの文書カテゴリに属すると判断するよう構成される、請求項１に記載のシステム。
前記システム回路構成は、前記電子文書に対応する前記画像から関心対象領域を取得するようさらに構成され、
前記システム回路構成は、前記メタデータカテゴリ識別モデルを前記関心対象領域に適用することにより前記第１の関連を取得するよう構成される、
請求項１に記載のシステム。
前記関心対象領域は、前記画像の一部を含む、請求項３に記載のシステム。
前記システム回路構成は、
前記画像に対する前記関心対象領域の位置およびサイズを決定することと、
前記画像から前記関心対象領域を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取り、さらに／またはその形を変更し、さらに／または整列し直すことと
により、前記電子文書に対応する前記画像から前記関心対象領域を取得するよう構成される、請求項３に記載のシステム。
前記システム回路構成は、
前記画像に対する前記関心対象領域の位置およびサイズを決定することと、
切り取られた画像を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取ることと、
前記切り取られた画像を、前記関心対象領域を取得するために前処理することと、
により、前記電子文書に対応する前記画像から前記関心対象領域を取得するよう構成される、請求項３に記載のシステム。
前記関心対象領域は、画素の配列を含み、前記切り取られた画像を前処理することは、画素分解能の低減と、ゆがみの修正とのうちの少なくとも１つを含む、請求項６に記載のシステム。
前記システム回路構成は、
前記電子文書を表現するために、前記電子文書に含まれるテキストのｎグラムのセットを抽出することと、
前記データベースの前記メタデータデータ要素のうち前記ｎグラムのセットと一致した前記サブセットを識別して前記第２の関連群を取得するために、前記ｎグラムのセットと前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行することと、
により、前記ファジーテキストマッチャーを使用して、前記電子文書と、前記データベースの前記メタデータデータ要素の前記サブセットとの前記第２の関連群を取得するよう構成される、請求項１に記載のシステム。
ファジーマッチングを実行することは、
前記電子文書の前記ｎグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、前記メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、前記ｎグラムのセットと、前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行することと、
前記ｎグラムのセットと最も一致したメタデータデータ要素の前記集合の対応する関連群の、重み付けされた比較によって、前記メタデータデータ要素の前記サブセットを識別することと、
を含む、請求項８に記載のシステム。
前記ｎグラムのセットは、ユニグラムのセット、バイグラムのセットおよびトライグラムのセットを含む、請求項８に記載のシステム。
前記ｎグラムのセットと、前記データベースのデータ項目との間のファジーマッチングを実行することは、前記ユニグラムのセット、前記バイグラムのセットおよび前記トライグラムのセットに異なる重みをかけることを含む、請求項１０に記載のシステム。
前記トライグラムのセットに、前記バイグラムのセットよりも大きな重みが与えられ、前記バイグラムのセットに、前記ユニグラムのセットよりも大きな重みが与えられる、請求項１１に記載のシステム。
メモリとシステム回路構成とを有するシステムにより電子文書を受信するステップと、
機械学習アルゴリズムに基づいて確立されて前記メモリに記憶されたテキストベースの文書分類器モデルを使用して、前記電子文書が所定のセットの文書カテゴリに属すると判断するステップに応答して、
前記電子文書に対応する画像を取得するステップと、
前記画像と、メタデータカテゴリのセットの中の第１のメタデータカテゴリとの第１の関連を、前記メモリに記憶されたメタデータカテゴリ識別モデルを使用して取得するステップであって、前記メタデータカテゴリのセットは、メタデータカテゴリフィールドを含むメタデータフィールドに編成されたメタデータデータ要素を含む前記システムのデータベース内の前記メタデータカテゴリフィールドにデータ要素として記憶される、前記ステップと、
前記電子文書と、前記データベースの前記メタデータデータ要素のサブセットとの第２の関連群を、前記メモリに記憶されたファジーテキストマッチャーを使用して取得するステップと、
前記第１のメタデータカテゴリと、前記データベースの前記メタデータデータ要素の前記サブセットに対応するメタデータカテゴリのセットとの中で、単一のメタデータカテゴリを、前記第１の関連および前記第２の関連群に基づいて、前記電子文書のラベルとして決定するステップと、
を含む方法。
前記方法は、前記電子文書を対応するテキスト文書に変換するステップをさらに含み、前記電子文書が前記所定のセットの文書カテゴリに属すると判断するステップは、
分類結果を取得するために、前記対応するテキスト文書を前記テキストベースの文書分類器モデルに入力するステップと、
前記分類結果が前記所定のセットの文書カテゴリ中のものであると判断するステップと、
による、請求項１３に記載の方法。
前記方法は、前記電子文書に対応する前記画像から関心対象領域を取得するようさらに構成され、前記第１の関連を取得するステップは、前記メタデータカテゴリ識別モデルを前記関心対象領域に適用するステップを含む、請求項１３に記載の方法。
前記関心対象領域は、前記画像の一部を含む、請求項１５に記載の方法。
前記電子文書に対応する前記画像から前記関心対象領域を取得するステップは、
前記画像に対する前記関心対象領域の位置およびサイズを決定するステップと、
前記画像から前記関心対象領域を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取り、さらに／またはその形を変更し、さらに／または整列し直すステップと、
を含む、請求項１５に記載の方法。
前記電子文書に対応する前記画像から前記関心対象領域を取得するステップは、
前記画像に対する前記関心対象領域の位置およびサイズを決定するステップと、
切り取られた画像を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取るステップと、
前記切り取られた画像を、前記関心対象領域を取得するために前処理するステップと、
を含む、請求項１５に記載の方法。
前記電子文書と、前記データベースの前記メタデータデータ要素の前記サブセットに対応する前記メタデータカテゴリのセットとの前記第２の関連群を取得するステップは、
前記電子文書を表現するために、前記電子文書に含まれるテキストのｎグラムのセットを抽出するステップと、
前記データベースの前記メタデータデータ要素のうち前記ｎグラムのセットと一致した前記サブセットを識別して前記第２の関連群を取得するために、前記ｎグラムのセットと前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行するステップと、
を含む、請求項１３に記載の方法。
ファジーマッチングを実行するステップは、
前記電子文書の前記ｎグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、前記メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、前記ｎグラムのセットと、前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行するステップと、
前記ｎグラムのセットと最も一致したメタデータデータ要素の前記集合の対応する関連群の、重み付けされた比較によって、前記メタデータデータ要素の前記サブセットを識別するステップと、
を含む、請求項１９に記載の方法。