JP2019114239A - 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別 - Google Patents

機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別 Download PDF

Info

Publication number
JP2019114239A
JP2019114239A JP2018197523A JP2018197523A JP2019114239A JP 2019114239 A JP2019114239 A JP 2019114239A JP 2018197523 A JP2018197523 A JP 2018197523A JP 2018197523 A JP2018197523 A JP 2018197523A JP 2019114239 A JP2019114239 A JP 2019114239A
Authority
JP
Japan
Prior art keywords
metadata
image
document
interest
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018197523A
Other languages
English (en)
Other versions
JP6629942B2 (ja
Inventor
ボワン,ウルベッシュ
Bhowan Urvesh
サクリスタン,ペドロ
Sacristan Pedro
オマリー,ローラ
O'malley Laura
ミランダ,アビラッシュ アレキサンダー
Alexander Miranda Abhilash
ミランダ,アビラッシュ アレキサンダー
コーコラン,メイブ
Corcoran Medb
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Solutions Ltd
Original Assignee
Accenture Global Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture Global Solutions Ltd filed Critical Accenture Global Solutions Ltd
Publication of JP2019114239A publication Critical patent/JP2019114239A/ja
Application granted granted Critical
Publication of JP6629942B2 publication Critical patent/JP6629942B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】階層型文書分類システムを提供する。【解決手段】コンピュータシステムに実装される階層型の電子文書の分類及びメタデータ認別のための論理及びデータフローは、定義済みの文書カテゴリのセットの中の1つに入力電子文書を分類224する、テキストベースの文書分類器モデル226を含む。システムはさらに、特定の文書カテゴリの電子文書をメタデータカテゴリのセットに分類する画像ベースのメタデータ識別モデル238を含む。システムはさらに、入力電子文書210のメタデータカテゴリを取得する画像ベースのメタデータ識別モデルの分類精度を補足するためのファジーテキストマッチングプロセス240を含む。【選択図】図2

Description

本開示は、階層型の、文書の分類ならびに文書のメタデータおよび属性の認識/識別に関する。
相互参照
本特許出願は、参照により本願明細書にその全体が援用される、2017年11月13日に米国特許庁に出願された米国特許出願第15/810,885号の優先権を主張する。
電子文書は、埋め込まれたテキストおよび画像を含むこともある。それらは、様々な用途で作成されて、様々な電子ファイルフォーマットで生成され得る。電子文書ファイルの各ページはさらに、電子文書ファイルのコンテンツまたはヘッダに直接埋め込まれることも埋め込まれないこともあるメタデータおよび属性に関連する場合もある。自動化された電子文書の分類ならびに電子文書の各ページに関連するメタデータおよび属性の認識/識別は、これら電子文書の整理、アーカイブおよびより効率的な使用を促進し得る。
本開示の一側面によれば、システムは、
メタデータフィールド内に編成されたメタデータデータ要素を含むデータベースであって、メタデータフィールドは、メタデータカテゴリデータ要素を含んだメタデータカテゴリフィールドを少なくとも含む、データベースと、
機械学習アルゴリズムに基づいて確立されたテキストベースの文書分類器モデル、メタデータカテゴリ識別モデルおよびファジーテキストマッチャーを記憶するメモリと、
データベースおよびメモリと通信しているシステム回路構成であって、
電子文書を受信し、
テキストベースの文書分類器モデルを使用して、電子文書が所定のセットの文書カテゴリに属すると判断するのに応答して、
電子文書に対応する画像を取得し、
画像と、メタデータカテゴリフィールドの第1のメタデータカテゴリデータ要素との第1の関連を、メタデータカテゴリ識別モデルを使用して取得し、
電子文書と、データベースのメタデータデータ要素のサブセットとの第2の関連群を、ファジーテキストマッチャーを使用して取得し、
第1のメタデータカテゴリデータ要素と、データベースのメタデータデータ要素のサブセットに対応するメタデータカテゴリデータ要素のセットとの中で、単一のメタデータカテゴリデータ要素を、電子文書のラベルとして、第1の関連および第2の関連群に基づき決定する、
ように構成されたシステム回路構成と、
を含んでもよい。
一部の実装において、システム回路構成は、電子文書を対応するテキスト文書に変換するようさらに構成されてもよく、システム回路構成は、
分類結果を取得するために、対応するテキスト文書をテキストベースの文書分類器モデルに入力することと、
分類結果が所定のセットの文書カテゴリ中にあると判断することと、
により、電子文書が所定のセットの文書カテゴリに属すると判断するよう構成されてもよい。
一部の実装において、システム回路構成は、電子文書に対応する画像から関心対象領域を取得するようさらに構成されてもよく、
システム回路構成は、メタデータカテゴリ識別モデルを関心対象領域に適用することにより第1の関連を取得するよう構成されてもよい。
一部の実装において、関心対象領域は画像の一部を含んでもよい。
一部の実装において、システム回路構成は、
画像に対する関心対象領域の位置およびサイズを決定することと、
画像から関心対象領域を取得するために、関心対象領域の位置およびサイズに従って画像を切り取り、さらに/またはその形を変更し、さらに/または整列し直すことと、
により、電子文書に対応する画像から関心対象領域を取得するよう構成されてもよい。
一部の実装において、システム回路構成は、
画像に対する関心対象領域の位置およびサイズを決定することと、
切り取られた画像を取得するために、関心対象領域の位置およびサイズに従って画像を切り取ることと、
切り取られた画像を、関心対象領域を取得するために前処理することと、
により、電子文書に対応する画像から関心対象領域を取得するよう構成されてもよい。
一部の実装において、関心対象領域は、画素の配列を含んでもよく、切り取られた画像を前処理することは、画素分解能の低減と、ゆがみの修正とのうちの少なくとも1つを含んでもよい。
一部の実装において、システム回路構成は、
電子文書を表現するために、電子文書に含まれるテキストのnグラムのセットを抽出することと、
データベースのメタデータデータ要素のうちnグラムのセットと一致したサブセットを識別して第2の関連群を取得するために、nグラムのセットとデータベースのメタデータデータ要素との間のファジーマッチングを実行することと、
により、ファジーテキストマッチャーを使用して、電子文書と、データベースのメタデータデータ要素のサブセットとの第2の関連群を取得するよう構成されてもよい。
一部の実装において、ファジーマッチングを実行することは、
電子文書のnグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、nグラムのセットと、データベースのメタデータデータ要素との間のファジーマッチングを実行することと、
nグラムのセットと最も一致したメタデータデータ要素の集合の対応する関連群の、重み付けされた比較によって、メタデータデータ要素のサブセットを識別することと、
を含んでもよい。
一部の実装において、nグラムのセットは、ユニグラムのセット、バイグラムのセットおよびトライグラムのセットを含んでもよい。
一部の実装において、nグラムのセットと、データベースのデータ項目との間のファジーマッチングを実行することは、ユニグラムのセット、バイグラムのセットおよびトライグラムのセットに異なる重みをかけることを含んでもよい。
一部の実装において、トライグラムのセットに、バイグラムのセットよりも大きな重みが与えられてもよく、バイグラムのセットに、ユニグラムのセットよりも大きな重みが与えられてもよい。
本開示の一側面によれば、方法は、
メモリとシステム回路構成とを有するシステムにより電子文書を受信するステップと、
機械学習アルゴリズムに基づいて確立されてメモリに記憶されたテキストベースの文書分類器モデルを使用して、電子文書が所定のセットの文書カテゴリに属すると判断するステップに応答して、
電子文書に対応する画像を取得するステップと、
画像と、メタデータカテゴリのセットの中の第1のメタデータカテゴリとの第1の関連を、メモリに記憶されたメタデータカテゴリ識別モデルを使用して取得するステップであって、メタデータカテゴリのセットは、メタデータカテゴリフィールドを含むメタデータフィールドに編成されたメタデータデータ要素を含むシステムのデータベース内のメタデータカテゴリフィールドにデータ要素として記憶される、ステップと、
電子文書と、データベースのメタデータデータ要素のサブセットとの第2の関連群を、メモリに記憶されたファジーテキストマッチャーを使用して取得するステップと、
第1のメタデータカテゴリと、データベースのメタデータデータ要素のサブセットに対応するメタデータカテゴリのセットとの中で、単一のメタデータカテゴリを、第1の関連および第2の関連群に基づいて、電子文書のラベルとして決定するステップと、
を含んでもよい。
一部の実装において、本方法は、電子文書を対応するテキスト文書に変換するステップをさらに含んでもよく、電子文書が所定のセットの文書カテゴリに属すると判断するステップは、
分類結果を取得するために、対応するテキスト文書をテキストベースの文書分類器モデルに入力するステップと、
分類結果が所定のセットの文書カテゴリ中のものであると判断するステップと、
による。
一部の実装において、本方法は、電子文書に対応する画像から関心対象領域を取得するようさらに構成されてもよく、第1の関連を取得するステップは、メタデータカテゴリ識別モデルを関心対象領域に適用するステップを含んでもよい。
一部の実装において、関心対象領域は画像の一部を含んでもよい。
一部の実装において、電子文書に対応する画像から関心対象領域を取得するステップは、
画像に対する関心対象領域の位置およびサイズを決定するステップと、
画像から関心対象領域を取得するために、関心対象領域の位置およびサイズに従って画像を切り取り、さらに/またはその形を変更し、さらに/または整列し直すステップと、
を含んでもよい。
一部の実装において、電子文書に対応する画像から関心対象領域を取得するステップは、
画像に対する関心対象領域の位置およびサイズを決定するステップと、
切り取られた画像を取得するために、関心対象領域の位置およびサイズに従って画像を切り取るステップと、
切り取られた画像を、関心対象領域を取得するために前処理するステップと、
を含んでもよい。
一部の実装において、電子文書と、データベースのメタデータデータ要素のサブセットに対応するメタデータカテゴリのセットとの第2の関連群を取得するステップは、
電子文書を表現するために、電子文書に含まれるテキストのnグラムのセットを抽出するステップと、
データベースのメタデータデータ要素のうちnグラムのセットと一致したサブセットを識別して第2の関連群を取得するために、nグラムのセットとデータベースのメタデータデータ要素との間のファジーマッチングを実行するステップと、
を含んでもよい。
一部の実装において、ファジーマッチングを実行するステップは、
電子文書のnグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、nグラムのセットと、データベースのメタデータデータ要素との間のファジーマッチングを実行するステップと、
nグラムのセットと最も一致したメタデータデータ要素の集合の対応する関連群の、重み付けされた比較によって、メタデータデータ要素のサブセットを識別するステップと、
を含んでもよい。
本開示の1つ以上の実装の詳細は、添付の図面および後述の説明に記載されている。本開示の他の特徴および利点は、本記載および図面から、さらに特許請求の範囲から明らかとなる。
階層型の電子文書の分類およびメタデータ認識/識別を実装する例示的なコンピュータシステムを示す。 階層型の電子文書の分類およびメタデータ識別の例示的な実装のための論理およびデータフローを示す。 階層型の電子文書の分類およびメタデータ認識/識別のためのプロセスの一部として実装され得る、例示的なテキストベースの文書分類器モデルを確立するための論理およびデータフローを示す。 階層型の電子文書の分類およびメタデータ認識/識別のためのプロセスの一部として実装され得る、例示的な画像ベースのメタデータ認識/識別モデルを確立するための論理およびデータフローを示す。 畳み込みニューラルネットワーク技術に基づき実装される画像ベースのメタデータ認識/識別モデリングプロセスを示す。 階層型の電子文書の分類およびメタデータ認識/識別のためのプロセスの一部として実装され得る、例示的なファジーテキストマッチャーを確立するための論理およびデータフローを示す。
電子文書は、ページ内に配置されたテキスト、画像およびその他コンポーネントを含み得る。電子文書はさらに、PostScript、PDFおよびXMLなどのページ記述言語、ならびにMicrosoft Wordなどのバイナリファイルフォーマットに基づくファイルフォーマットを含むがこれらに限定されない、様々な電子ファイルフォーマットで記憶され得る。ページ記述言語は、例えば、文書ページの中の様々なコンポーネントを、それらのコンテンツならびに位置およびレイアウトの関係を含めて指定するために使用され得る。具体的には、文書ページに含まれるテキスト情報は、フォントおよび位置/レイアウト情報を備えた文字ストリングとして表現されるプレーンテキストデータコンポーネントとして埋め込まれることも、またはビットマップ画像コンポーネントとして埋め込まれることもある。一例において、電子文書ページ全体が、埋め込まれたテキスト情報ならびにその他グラフィカル情報およびレイアウト情報を伝える、ビットマップ画像である場合もある。具体的には、紙の情報源を光学的にスキャンしてデジタル化することにより取得される電子文書は、画像のビットマップページを含み得る。
電子文書は、様々な情報源に由来し、異なるコンテンツを含み得る。例えば文書ファイルの形態の電子文書はさらに、異なるコンテンツをそれぞれ含んだ複数のページを含むこともある。自動的な文書認識、識別、分類およびカタログ登録タスクは、電子文書の大規模な集合から関連ページを識別することを必要として、関連ページそれぞれからメタデータを抽出するかもしれない。そのようなメタデータ認識/識別は、機械学習技術に基づき作成されたコンテンツ認識/識別および/または分類器モデルを使用して達成され得る。ここで、メタデータという用語は、電子文書ページの属性を広く指し得る。この属性は、例えば対応する電子ファイルのヘッダには含まれないこともある。例えば、電子文書の集合は、複数ページのベンダの請求書を、その他多数の情報の中に含むかもしれない。そのような事例において、メタデータとは、電子文書の集合に含まれる請求書に関連するベンダの名前またはIDを指し得る。電子文書ページのそのようなメタデータは、例えばベンダの名前/IDのセットなど、定義済みセットのメタデータカテゴリに属することもある。メタデータ情報は、電子文書のテキスト、グラフィックまたはレイアウトに埋め込まれ得る。そのようなメタデータの認識/識別は、関心対象情報の抽出、ラベル付け、電子文書の整理を改善する支援となるかもしれない。「電子文書」という用語は、通常、複数のページを含み得る電子ファイルを指すために使用されるかもしれないが、下記の開示では、説明を簡単にするために、「ページ」という用語と同義語として使用される。よって、文書ページの集合の各ページが、電子文書と呼ばれることもあり、文書の集合が、電子文書ファイルおよびその他情報源からパーズおよび抽出されたページ群を指すこともある。
特定の関心対象カテゴリのもの(例えばベンダの請求書)でありメタデータ認識/識別を必要とする電子文書(またはページ)は、電子文書の大規模な集合のうち小さな割合にすぎないかもしれない。電子文書の大規模な集合の中で直接のメタデータ認識/識別を提供する機械学習アルゴリズムに基づくモデルは、一定水準のメタデータ認識/識別精度を達成するために、多数の文書特徴、巨大な探索空間を必要とするかもしれない。したがって、そのようなモデルの作成および更新は、過度な量の計算資源を消費するかもしれない。それにもかかわらず、結果として生じるモデルは、例えばベンダの請求書に関係のない文書ページからのノイズが原因で不正確かもしれない。さらに、メタデータ情報が電子文書内のテキスト情報またはグラフィカル情報およびレイアウト情報に埋め込まれる場合もあるので、テキスト認識/識別技術のみまたは画像認識/識別技術のみに基づく単一モデルは、全般的に満足のいくメタデータ認識/識別の精度を提供するには足りないかもしれない。
下記の開示は、精度を改善し、かつ同時に、モデル作成、モデル更新および入力電子文書に関する特徴計算中の計算要件を軽減するたに、メタデータ認識/識別の問題に対する段階的な階層型手法を提供する。1つの例示的な実装において、段階的なメタデータ認識/識別手法は、例えばテキストベースの文書分類およびフィルタリング段階、画像ベースのメタデータ認識/識別段階、およびメタデータ認識/識別の精度をさらに改善するための補足的なファジーテキストマッチング段階を伴う複数の(例えば3つの)階層型段階を含む。テキストベースの文書分類および画像ベースのメタデータ認識/識別のためのモデルは、それぞれ、テキスト分類および画像分類のための任意の適切な機械学習アルゴリズムに基づいてもよい。「メタデータ識別」という用語と「メタデータ認識」という用語とは、同義語として使用され、入力電子文書に埋め込まれたテキストメタデータ情報(例えばベンダの名前)および何らかの特定のメタデータ(例えば特定のベンダ)に関連する特定の文書タイプ(例えばベンダの請求書)に特徴的な入力電子文書内のグラフィカル/レイアウトメタデータパターンの認識/識別の両方を指し得る。
1つの実装において、テキストベースの文書分類器モデルが、入力電子文書を、例えばベンダの請求書およびその他ベンダ文書カテゴリを含む、定義済みセットの文書カテゴリに分類するために使用されてもよい。定義済みセットの文書カテゴリの中のカテゴリに分類されたが関心対象ではない電子文書は、フィルタリングされてもよい。よって、関心対象カテゴリに属する文書のみが、階層型手法の次の段階においてメタデータ情報の抽出のためにメタデータ識別モデルにより処理される必要がある。入力電子文書の中の、より小さなセットの電子文書(例えばベンダの請求書)のみがさらに分析される必要があるので、機械学習技術に基づくメタデータ識別モデルの作成は、ターゲットがより絞られた、より狭い範囲の訓練およびテストコーパスに依拠でき、より良く定義された機械学習機能に依拠でき、精度がより高く計算的負担がより軽い、画像ベースのメタデータ識別モデルが提供される。特徴的なメタデータ特徴は、多くの場合、入力電子文書内のレイアウトコンポーネントおよびグラフィカルコンポーネント内に埋め込まれる可能性があるので、1つの実装において、メタデータ識別モデルは、画像認識および分類技術に基づいてもよい。例えば、特定のベンダ(ベンダの固有の名前またはIDを持つ)は、このベンダに固有のレイアウト特徴またはグラフィカル特徴を含んだ請求書フォーマットを使用するかもしれない。電子文書内のテキストコンテンツは実体の名前およびID情報をも含むかもしれないが、入力電子文書内の実体の名前およびID情報は多くの場合、電子文書を制作して電子文書に含まれる請求書を発行する実体以外の実体と関係し得るので、テキスト認識を介したメタデータの識別はそれほど正確でないかもしれない。
一部の事例において、入力電子文書は、画像ベースのメタデータ識別モデルにより特定のメタデータカテゴリ(例えば特定のベンダの名前/ID)に属すると識別されるが識別信頼度スコアは低いかもしれない。これは例えば、画像ベースのメタデータ識別モデルが確立されたとき訓練データコーパスに含める請求書が利用可能でなかったベンダに、入力電子文書が属する場合に発生し得る。このような状況では、入力電子文書内のテキストの特徴と、独立したメタデータデータベース内のメタデータ項目との比較の実行に基づく、階層型手法の補足的なファジーテキストマッチャーが、画像ベースのメタデータ識別モデルの精度を向上させる支援となるかもしれない。ファジーテキストマッチャーは、画像ベースのメタデータ識別モデルにより行われたメタデータ識別を承認するか、または入力電子文書について異なるがより確からしいメタデータカテゴリを提案することによるか、いずれかをしてもよい。ファジーテキストマッチャーにより依拠されるメタデータデータベースは、画像ベースのメタデータ識別モデルを確立するための訓練データセット(例えばベンダの請求書)においては対応関係がないかもしれない、例えばベンダの名前およびIDなどのメタデータカテゴリを対象とする、より広範囲にわたるメタデータのセットを含んでもよい。
図1において、入力電子文書のメタデータ識別のためのシステム100が、コンピュータ101により実装されるものとして示されている。コンピュータ101は、通信インターフェース102と、システム回路構成104と、入出力(I/O:input/output)インターフェース106と、ストレージ109と、例えばローカルマシンもしくはリモートマシン上で実行されているウェブブラウザにおけるリモート表示のために、またはローカルでマシンインターフェース110を生成する表示回路構成108とを含んでもよい。マシンインターフェース110およびI/Oインターフェース106は、GUI、タッチセンシティブディスプレイ、音声または顔認識入力、ボタン、スイッチ、スピーカならびにその他ユーザインターフェース要素を含んでもよい。I/Oインターフェース106のさらなる例には、マイクロフォン、ビデオおよび静止画カメラ、ヘッドセットおよびマイクロフォン入出力ジャック、ユニバーサルシリアルバス(USB:Universal Serial Bus)コネクタ、メモリカードスロットならびにその他のタイプの入力が含まれる。I/Oインターフェース106はさらに、磁気または光学媒体インターフェース(例えばCDROMまたはDVDドライブ)、シリアルおよびパラレルバスインターフェースならびにキーボードおよびマウスインターフェースを含んでもよい。
通信インターフェース102は、無線送信機および受信器(「送受信機」)112、ならびに送受信機112の送信および受信回路構成により使用される任意のアンテナ114を含んでもよい。送受信機112およびアンテナ114は、例えば任意のバージョンのIEEE802.11、例えば802.11nまたは802.11acなどに基づくWi−Fiネットワーク通信をサポートしてもよい。通信インターフェース102は、有線送受信機116をさらに含んでもよい。有線送受信機116は、任意のタイプのイーサネット、データオーバケーブルサービスインターフェース仕様(DOCSIS:data over cable service interface specification)、デジタル加入者回線(DSL:digital subscriber line)、同期型光ネットワーク(SONET:Synchronous Optical Network)または他のプロトコルなど、広範な通信プロトコルのいずれかのための物理レイヤインターフェースを提供してもよい。
ストレージ109は、文書分類モデル、メタデータ識別モデルおよびファジーテキストマッチングモデルを構築、更新および運用するための様々な初期、中間または最終のデータまたはモデルを格納するために使用されてもよい。ストレージ109はさらに、文書分類モデルおよびメタデータ識別モデルを作成するために使用されるデータコーパスを格納してもよい。ストレージ109はさらに、ファジーテキストマッチングモデルのために必要なメタデータのデータベースを実装するために使用されてもよい。ストレージ109は、集中型であっても分散型であってもよい。例えばストレージ109は、クラウドコンピューティングサービスプロバイダによりリモートでホストされてもよい。
システム回路構成104は、ハードウェア、ソフトウェア、ファームウェアまたはその他回路構成を任意の組み合わせで含んでもよい。システム回路構成104は、例えば、1つ以上のシステムオンチップ(SoC:systems on a chip)、特定用途向け集積回路(ASIC:application specific integrated circuit)、マイクロプロセッサ、個別のアナログおよびデジタル回路ならびにその他回路構成を用いて実装されてもよい。システム回路構成104は、カスタマイズされたグラフナレッジベースの構築、メンテナンスおよび適用に関係した、求められる任意の機能性の実装の一部である。単に一例として、システム回路構成104は、1つ以上の命令プロセッサ118およびメモリ120を含んでもよい。メモリ120は、例えば、制御命令124およびオペレーティングシステム122を格納する。1つの実装では、命令プロセッサ118は、制御命令124およびオペレーティングシステム122を実行して、文書分類、メタデータ識別およびファジーテキストマッチングのためのモデルに関係する任意の望ましい機能性を実行する。
図2は、図1のコンピュータシステム100に実装される階層型の電子文書の分類およびメタデータ識別のための例示的な論理およびデータフロー200を示す。論理およびデータフロー200は、テキストベースの文書分類およびフィルタリングプロセス220のための論理およびデータフロー、画像ベースのメタデータ識別プロセス230のための論理およびデータフローならびにファジーテキストマッチングプロセス240のための論理およびデータフローを含む。テキストベースの文書分類およびフィルタリングプロセス220、画像ベースのメタデータ識別プロセス230およびファジーテキストマッチングプロセス240は、図2により示されるように階層的に関係する。具体的には、テキストベースの文書分類およびフィルタリングプロセス220のフィルタリングされた出力文書228が、画像ベースのメタデータ識別プロセス230およびファジーテキストマッチングプロセス240に入力される。
図2のテキストベースの文書分類およびフィルタリングプロセス220について、入力電子文書210がまずテキスト文書に変換される(222)。入力電子文書は、様々な情報源からの文書ページを含むかもしれない。例えば、複数ページの電子文書ファイルは、それぞれが1ページに対応する複数の文書に分離されてもよい。入力電子文書のテキスト文書への変換は、例えば光学式文字認識(OCR:Optical Character Recognition)を介して達成されてもよい。よって、入力電子文書に含まれるテキスト情報が抽出されて、文字ストリングに変換されてもよい。変換されたテキスト文書は、テキストベースの文書分類器モデル226により分類されてもよい(224)。具体的には、変換されたテキスト文書のテキスト特徴が、定義済みのテキスト特徴計算アルゴリズムを使用して計算されてもよい(225)。計算されたテキスト特徴は、変換されたテキスト文書を定義済み文書カテゴリのセットの中の1つに分類するテキストベースの文書分類器モデルに入力されてもよい(226)。定義済み文書カテゴリのセットは、ベンダの請求書ベンダの提案書、製造カタログ、製品マニュアル、被保証人、供給契約書および同様のものを含んでもよいが、これらに限定はされない。
1つの実装において、入力電子文書がフィルタリングされ、関心対象である文書カテゴリの中にない電子文書が除去されてもよい(227)。よって、関心対象の電子文書(228)のみが保持され、画像ベースのメタデータ識別プロセス230およびファジーテキストマッチングプロセス240によりさらに分析される。例えば、ベンダの請求書が、関心対象である唯一の文書カテゴリであってもよい。よって、テキストベースの文書分類プロセス220によりベンダの請求書として分類された電子文書のみが、メタデータの識別のためにさらに分析されてもよい。
図2の画像ベースのメタデータ識別プロセス230について、フィルタリングされた文書228の画像がまず取得されてもよい(250)。各画像は1つの文書(ページ)に対応してもよい。1つの実装では、フィルタリングされた電子文書228の一部に対応する入力文書210は、既に画像フォーマットであるかもしれず、当該電子文書は画像に変換される必要がないかもしれない。その他一部の入力電子文書210は、もともと画像以外のフォーマットであるかもしれず、よって220でのフィルタリングプロセスの後、それらは画像に変換されるとよい(250)。
次に、関心対象である文書カテゴリに属する入力電子文書の画像それぞれが処理されて、関心対象領域が抽出されてもよい(234)。各画像または文書ページの関心対象領域は、画像の中の定義済みのサイズおよび位置の構成部分または一部であってもよい。例えば、関心対象領域は、画像の左上の方形であってもよい。関心対象領域の抽出は、画像ベースの識別プロセス230により処理される必要があると考えられるデータの量をさらに削減する支援をする。関心対象領域の位置およびサイズの事前決定は、過去のデータに基づいてもよい。例えば、仮にベンダの請求書が関心対象文書カテゴリであり、かつベンダの請求書が通常、ベンダのメタデータを埋め込んだテキスト情報またはグラフィカル情報を、左上の方形に含んでいるならば、関心対象領域は画像の左上の方形として定義済みであってもよい。画像は、関心対象領域を取得するために、切り取られ、さらに/または形を変更され、さらに/または整列し直されてもよい。
情報を伝えるメタデータを様々なベンダがその請求書の異なる部分に配置し得る状況に対処するために、関心対象領域について定義済みの別々のサイズおよび位置をそれぞれ指定する図2の230の並列プロセスが複数、実行されてもよい。並列メタデータ識別プロセス230の分析結果が結合されて、文書のメタデータ情報が判断されてもよい。例えば、並列プロセス230のうちの1つは、画像の左上の方形を抽出してもよく、並列プロセス230の別の1つは、画像の右上の方形を抽出してもよい。後述のとおり、画像ベースのメタデータ識別モデリング237は、(バイナリ分類器でなく)入力された関心対象領域が定義済みセットのメタデータカテゴリそれぞれに関連する確率を出力する回帰アルゴリズムに基づいてもよい。画像ベースの並列メタデータ識別プロセス230が実行されている状況において、並列メタデータ識別プロセスにより識別されたメタデータカテゴリの中で、特定の入力電子文書について最も確からしいメタデータカテゴリが、その入力電子文書のメタデータカテゴリとして決定されてもよい。
1つの実装では、抽出された関心対象領域は、画像ベースのメタデータ識別モデリング236の前に前処理されてもよい(234)。関心対象領域は、サイズ変更され、さらに/または形を変更され、さらに/または整列し直されてもよい。関心対象領域の前処理は、例えば関心対象領域の解像度低減を含んでもよい。特に、各関心対象領域の画像画素数が、所定数の隣接画素をまとめ合わせて平均することにより削減されてもよい。例えば、200かける200の画像画素を有する関心対象領域が、50かける50画素に削減されてもよい。典型的には、入力電子文書に対応する画像に埋め込まれたメタデータ情報は相対的に低い解像度で識別可能であろうから、そのような解像度低減は、画像ベースのメタデータ識別プロセス230の計算要件を多量の情報損失なくして低減する支援となり得る。抽出関心対象領域の前処理はさらに、関心対象領域の形の変更を含んでもよい。そのような形の変更は、例えば、関心対象領域におけるゆがみを検出して整えるように設計されてもよい。そのようなゆがみは、例えば、入力電子文書が、元の紙の文書情報源から光学スキャナまたはカメラを使用して生成されるともたらされるかもしれない。例えばベンダの請求書は、典型的には、平行線を有する表を含むであろう。よって、関心対象領域を前処理するときに、まっすぐでない、または平行でない線が関心対象領域において検出されて、修正されてもよい。例えば、ゆがみの修正は、関心対象領域の画素化データに適用され得る変換行列を求めることにより達成されてもよい。
フィルタリングされた電子文書の前処理された関心対象領域は、次に、画像ベースのメタデータ識別モデリング236により分析されてもよい。具体的には、変換されたテキスト文書の画像特徴が、画像特徴抽出のための定義済みアルゴリズムを使用して抽出または学習されてもよい(237)。抽出された画像特徴は、関心対象領域を定義済みのメタデータカテゴリのうちの1つに分類する画像ベースのメタデータ識別モデル238に入力されてもよい。画像ベースのメタデータ識別モデルは、例えば回帰アルゴリズムに基づいてもよく、したがって、特定の関心対象領域が定義済みメタデータカテゴリそれぞれに関連する確率を求めるよう設計されてもよい。例えば、画像ベースのメタデータ識別モデルは、ベンダ請求書カテゴリの入力電子文書の特定画像からの関心対象領域が、定義済みグループのベンダの名前またはIDのそれぞれに関連する確率を求めるよう設計されてもよい。1つの例示的な実装において、画像特徴抽出237および画像分類器モデルは、畳み込みニューラルネットワークなどのニューラルネットワーク法に基づいてもよい。
画像ベースのメタデータ識別モデリング236は、入力された一部の関心対象領域について正確なメタデータ識別を提供できないかもしれない。例えば、入力された関心対象領域が画像ベースのメタデータ識別モデリング236により判断された任意の特定の定義済みメタデータカテゴリに関連する確率は、他の定義済みメタデータカテゴリの中で突出せず、メタデータ識別プロセス236が、入力されたこの関心対象領域に対応する画像に対するメタデータカテゴリの指定について曖昧であることを示すかもしれない。或る状況では、画像ベースのメタデータ識別モデリング236により処理される入力電子文書の関心対象領域の一部に対応するメタデータカテゴリの画像は、画像ベースのメタデータ識別モデル238の訓練データコーパスの一部でないかもしれない。ほかの状況では、訓練データコーパスにおいて使用された特定のメタデータカテゴリのテンプレート画像が、発展して変化するかもしれない。さらにほかの一部状況では、訓練データコーパス内の同じテンプレート画像が、複数のメタデータカテゴリに対応するかもしれない(例えば、同じ請求書テンプレート画像が異なる複数のベンダの名前またはIDに対応する)。こうした様々な状況において、図2の画像ベースのメタデータ識別モデリング236は、入力された関心対象領域の正しい単一のメタデータカテゴリを、相当な精度で明確に識別することはできないかもしれない。したがって、当該関心対象領域および対応する入力電子文書のメタデータ識別はさらに、図2のファジーテキストマッチングプロセス240により補足されてもよい。
1つの実装において、ファジーテキストマッチングプロセス240は、ファジーテキストマッチングモデル242と通信しているメタデータデータベース244を含む。メタデータデータベース244は、画像ベースのメタデータ識別プロセス230のために作成された画像ベースのメタデータ識別モデル238のための訓練データコーパスに欠けていたまたはその他含まれていなかった、電子文書に対応するメタデータを含んでもよい。例えば、過去、現在および未来のベンダの完全なリストがあってもよい。ベンダの名前およびIDなどのこれらベンダのメタデータが、メタデータデータベース244に維持されてもよい。実際の請求書はこれらベンダのサブセットにしか存在していないかもしれない。残りの潜在的なベンダからの請求書は、以前に受領されたことがないかもしれない。それに応じて、上記の画像ベースのメタデータ識別モデル238のための訓練およびテストコーパスは、潜在的なベンダのサブセットの、請求書の文書または画像しか含まないかもしれない。入力電子文書がこれらの潜在的なベンダの1つにより発行された請求書を含むと、画像ベースのメタデータ識別モデル238は、これらの入力文書のメタデータカテゴリを正確に判断できないかもしれない。
このような状況において、これらの潜在的なベンダのテキストメタデータがメタデータデータベース244において利用可能であるかもしれないので、当該情報がファジーテキストマッチングプロセス240により使用されて、これらの潜在的なベンダに関連する入力電子文書についてより良いメタデータ識別が提供されるとよい。具体的には、ファジーマッチングプロセス240は、入力電子文書に含まれるテキスト情報にほぼ一致するメタデータデータベース244内のメタデータエントリを識別することを伴ってもよい。これらの電子文書の最終的なメタデータ識別は、画像ベースのメタデータ識別プロセス230により提供された確率と、ファジーテキストマッチングプロセス240による提案との両方を考慮して判断されてもよい(260)。
メタデータデータベース244内のテキストメタデータ情報は、様々な情報源から抽出されてもよい。これらの情報源は、テキストベースであってもよい。あるいは、これらの情報源は画像ベースであってもよい。例えば、請求書以外でベンダに関係する文書の画像が利用可能かもしれず、これらの画像が、例えばOCRプロセスを介してテキスト情報に変換されてもよく、変換されたテキスト情報からメタデータがさらに抽出されてメタデータデータベース244により維持されてもよい。
図3は、図2のテキストベースの文書分類プロセス220において使用され得る例示的な文書分類器モデル226を確立するための論理およびデータフロー300を示す。文書分類器モデルの作成は、テキスト文書のコーパス、または定義済みセットの文書カテゴリによりラベル付けされた文書コーパス310を構築することを伴ってもよい。文書分類器モデル226の作成はさらに、テキスト特徴抽出プロセス320および機械学習アルゴリズムに基づく反復的な文書分類器モデリング330をさらに含んでもよい。
定義済みセットの文書カテゴリを用いてラベル付けされた文書コーパス310は、ラベル314付きの訓練テキスト文書セット312およびラベル318付きのテストテキスト文書セット316に分割されてもよい。定義済みセットの文書カテゴリは、電子文書の集合の範囲に基づき決定されてもよい。例えば電子文書は、ベンダの通信文書に関係してもよく、ベンダの請求書、ベンダの提案書、製品カタログ、製品マニュアル、保証書、供給契約書および同様のものを含んでもよい。このような例示的なカテゴリを用いて、電子文書が適宜ラベル付けされてもよい。コーパス310内の電子文書は、手動でラベル付けされてもよいし、あるいは自動化されたプロセスを使用してラベル付けされてもよい。
文書コーパス310内の電子文書を表現する多次元特徴空間が定義されてもよい。訓練文書セット312の中の各文書を多次元特徴空間において表現するために、多次元特徴空間がテキスト特徴のセットにより形成されてもよく、こうした特徴が当該文書からさらに抽出されてもよい(320)。訓練テキスト文書セット312内の各文書は、抽出された特徴により決定される座標を有する多次元特徴空間内の点に対応する多次元特徴空間内のベクトルにより表現されてもよい。その結果、文書分類器モデリングプロセス330において機械学習アルゴリズムは、多次元特徴空間において訓練テキスト文書セット中の同じ文書ラベルを備える文書を表現する各点が、機械学習アルゴリズムの評価関数に従って同じ1つの区画にほぼ入るように、多次元特徴空間のクラスタ化または区画化に使用され得るルールおよびパラメータを決定することを担当する。区画化された多次元特徴空間および対応するパラメータは、テキストベースの文書分類モデル226の基礎を形成する。
テキスト特徴空間の次元は定義済みであってもよい。例えば、テキスト特徴空間はバッグオブワーズ(bag of words)を使用して決定されてもよい。多次元テキスト特徴空間を構築する他の実装は、概念的特徴空間、Nグラムに基づく文脈特徴空間、機械的に抽出された特徴空間、および文書構造特徴空間を含んでもよい。多次元特徴空間の次元数は、計算能力のために制限されてもよい。例えば、スコアリング関数が、特徴次元をランキングするために使用されてもよく、所定数の上位特徴次元のみが、テキストベースの文書分類器モデル226の多次元特徴空間を形成するために使用される。1つの実装において、テキスト特徴は、語または句のグループであってもよく、これらの語または句が文書コーパス310においてどの程度頻繁に出現するかによりこれらの特徴のランキングが決定されてもよい。
文書分類器モデリング330は、様々な分類アルゴリズムおよび回帰アルゴリズムを含む様々な機械学習アルゴリズムに基づいてもよい。これらの分類アルゴリズムおよび回帰アルゴリズムは、例えば、ランダムフォレスト回帰、線形回帰、ロジスティック回帰、単純ベイズ分類器、ベイジアンネットワーク、通常の最小二乗回帰、主成分回帰、および同様のものに基づいてもよい。複数のモデリングパラメータを有する評価関数がクラスタ化のために設計されてもよく、特徴空間において訓練テキスト文書セット中の同じ文書ラベルを備える文書を表現する各点が、同じ1つの区画にほぼ入るように、多次元特徴空間を区画化してもよい。モデリングパラメータは、テキストベースの文書分類器モデル226の基礎を形成する。確立された分類モデルはさらに、文書コーパス310内のテストテキスト文書セット316の使用に基づいてテストおよび改善されてもよい。具体的には、テストテキスト文書セット316内の文書の特徴が、同様に、抽出され(320)テキストベースの文書分類器モデル226に入力され、モデリングパラメータに従って分類されてもよい。結果として生じる分類結果が、テストテキスト文書ラベル318と比較されてもよい。文書分類器モデリング330が反復適用されて、結果として生じる文書分類器モデル226がテストテキスト文書セット316の分類において所定レベルの精度を達成するようにモデリングパラメータが精緻化されてもよい。最終的なテキストベースの文書分類器モデルが、図2のテキストベースの文書分類プロセス220において使用されるとよい。これに対応して、図2のテキスト特徴計算225は、図3の同特徴抽出プロセス320に従う。
図4は、図2の画像ベースのメタデータ識別プロセス230において使用され得る例示的な画像ベースのメタデータ識別モデル238を確立するための論理およびデータフロー400を示す。画像ベースのメタデータ識別モデル238は、入力画像を所定のセットのメタデータカテゴリ(例えばベンダの名前またはID)に分類する画像分類器であってもよい。画像ベースのメタデータ識別モデルの作成は、定義済みセットのメタデータカテゴリを用いてラベル付けされた画像のコーパス410(例えば図2の関心対象領域の画像)を構築することを伴ってもよい。1つの実装では、画像ベースのメタデータ識別モデル238の作成はさらに、画像特徴抽出または学習(320)および機械学習アルゴリズムに基づく反復的な画像ベースのメタデータ識別モデリング430を含んでもよい。
定義済みセットのメタデータカテゴリを用いてラベル付けされた画像コーパス410は、ラベル414付きの訓練画像セット412およびラベル418付きのテスト画像セット416に分割されてもよい。定義済みセットのメタデータカテゴリは、画像コーパス410の中の画像の範囲に基づき決定されてもよい。例えば、画像コーパス410の中の画像は様々なベンダからの請求書に関係し得る。メタデータカテゴリはベンダの名前またはIDに対応し得る。したがって、画像コーパス410の中の画像は、このようなベンダの名前またはIDを用いて適宜ラベル付けされてもよい。コーパス内の画像は、手動でラベル付けされてもよいし、あるいは自動化されたプロセスを使用してラベル付けされてもよい。
図4の実装において、画像特徴抽出420と、機械学習アルゴリズムに基づく画像ベースのメタデータ識別モデリング430とは、別々のプロセスとされてもよい。具体的には、画像コーパス410の中の画像を表現するために、多次元画像特徴空間が決定または学習されてもよい。多次元画像特徴空間は、画像特徴のセットにより形成されてもよく、これらの画像特徴は、画像を多次元画像特徴空間において表現するために訓練画像セット412内の画像の中の各画像から学習および抽出されてもよい(420)。訓練画像セット内の画像の中の各画像は、抽出された画像特徴により決定される座標を有する多次元画像特徴空間内の点に対応する、多次元画像特徴空間内のベクトルにより表現されてもよい。その結果、画像ベースのメタデータ識別モデリングプロセス430の機械学習アルゴリズムは、訓練画像412のメタデータカテゴリラベル414を使用して、画像ベースのメタデータ識別モデル238のための基礎として使用され得るモデルのルールおよびパラメータを決定することを担当する。モデルのルールおよびパラメータは、テスト画像セット416およびテスト画像ラベル418の使用に基づいてさらに改善されてもよい。次に、最終的な画像ベースのメタデータ識別モデル238は、入力画像が所定のセットのメタデータカテゴリのうちのいずれか1つである確率を求めるために使用されてもよい。
あるいは、画像ベースのメタデータ識別モデリングは、畳み込みニューラルネットワーク(CNN:convolutional neural network)を含むがこれに限定されない、多層深層学習技術に基づいて実装されてもよい。よって、画像特徴抽出237および画像ベースのメタデータ識別モデル238は、図5の例示的な論理およびデータフロー500に示されるとおり、多層CNNとして一体化して実装されてもよい。
例示的なCNNベースのメタデータ識別モデリング論理およびデータフロー500は、ラベル付き訓練画像512を使用した画像特徴および分類モデルの反復学習(560および570)のための画像特徴抽出層510および分類層540を含んでもよい。具体的には、訓練画像512は、516により示されるとおり、N個の画像特徴(それぞれ画像パッチ514の形態)を使用して畳み込みフィルタリングされ、N個の特徴マップ518が取得される。N個の画像特徴はそれぞれ、ランダムに初期化される。図5の例では、訓練画像が、所定のサイズ、(526により示されるとおり)例えば32かける32に正規化される。各画像特徴の画像パッチのサイズは、所定のものであってもよい(例えば514により示されるとおり5かける5)。32かける32の訓練画像512は、畳み込みフィルタリング516の後、(524により示されるとおり)28かける28のN個の特徴マップ518になる。特徴マップの数N(522)は、画像特徴514の数に対応する。特徴マップ518内の各点、例えば点520は、画像特徴514のうちの1つと訓練画像512の5かける5のパッチとの畳み込みに対応する。5かける5の特徴514が32かける32の訓練画像全体にわたって移動すると28かける28の固有位置をもたらすので、本例の特徴マップ518のサイズは28かける28である。次に、特徴マップ518は、最大プーリングされてそのサイズが縮小され(532)、最大プーリングされた特徴マップ528が取得されるとよい。例えば最大プーリングは、各特徴マップを、所定数の、例えば2かける2の隣接する点のグループに分割し、グループ内の最大の点のみを維持してもよい。よって、図5の例における最大プーリングされた特徴マップ528は、N個の(530により示されるとおり)14かける14の特徴マップを含む。プロセス516および532は、複数の畳み込みおよび最大プーリング層において、上位の画像特徴を使用して繰り返されてもよい。結果として生じる最終的な最大プーリングされた特徴マップは、534においてベクトル化され全結合層542が取得されるとよい。一部の変質では、全結合層は複数の層として実装されてもよい。次に、全結合層(単数または複数)542を、例えばベンダA544、ベンダB546、ベンダC548またはベンダD550などの訓練画像のクラスラベルと相関させるとよい。
上記のプロセスは、順伝播560を表現する。初期はランダムな画像特徴514は、訓練画像512をその正しいラベルに分類する際のすべての誤りを最小化するように、逆伝播プロセス570により精緻化されるとよい。訓練画像のラベルと一致する最適な分類結果を提供する共通画像特徴を取得するために、順伝播プロセス560および逆伝播プロセス570が多数の訓練画像に対して反復実行される。最後に、入力画像が順伝播560により処理されて、入力画像がベンダA、B、CまたはDのいずれかに関連する確率の予測が取得されてもよい。このように、CNNベースの画像分類プロセス500が、図2の画像ベースのメタデータ識別モデリング236の実装に使用されてもよい。
図6は、図2のファジーテキストマッチングプロセス240として使用され得る例示的な論理およびデータフロー600を示す。例示的なファジーテキストマッチングプロセスは、入力テキスト文書640からNグラム632、624および636を抽出すること(630)、複数のメタデータデータ項目611を有するメタデータデータベース510にアクセスすること、および抽出されたNグラムおよびメタデータデータ項目に対してファジーテキストマッチングアルゴリズム650を実行して、抽出されたNグラムに一致する上位のメタデータデータ項目を取得することを含む。
入力電子文書のNグラムとは、実質的に、入力電子文書の中の、定義済み長さのタームである。タームは、単一の語(ユニグラム)、2つの語(バイグラム)、3つの語(トライグラム)またはそれ以上を含み得る。例えば、文書のトライグラムは、文書において出現する連続した3語のパターンすべてを含むことができる。入力文書の特徴を表すために連続した複数の語のタームを使用することは、ファジーテキストマッチングプロセス600における偽陽性を削減する支援となり得、ひいては図2の画像ベースのメタデータ識別プロセス240の精度を低下させずに補足し改善し得る。例えば、「Dell」という語は、ベンダのDell,Inc.を指し示すこともあるが、メタデータカテゴリに関係するベンダの名前ではなく製品名として電子文書に出現する可能性もあるであろう。図6の例示は入力電子文書640からのユニグラム、バイグラムおよびトライグラムの抽出のみを示すが、より高次のNグラムが同様に抽出されてもよい。図6のファジーマッチングプロセスに含められるNグラムの次数の数値は、計算要件とモデリング精度の増大との間のトレードオフを考慮することにより決定されてもよい。
メタデータデータベース610は、テーブル611により表現されるメタデータデータ項目を含んでもよい。メタデータデータ項目は、行および列に論理的に配置されてもよい。一例では、行620、622、624、626および628が別々のベンダのメタデータを表現してもよい。列612、614、616および618は別々のタイプのメタデータを表現してもよい。611のデータ列は、代わりにメタデータフィールドと呼ばれることもある。列またはフィールドの1つ、例えばメタデータフィールド612は、定義済みのメタデータカテゴリを表現してもよい。よって、図2の入力電子文書は、メタデータフィールド612のメタデータデータ項目、例えばベンダA、ベンダB、ベンダCおよびベンダDのうちの1つによりラベル付けされることになる。他のメタデータフィールドは例えば、ベンダ住所フィールド614、ベンダ連絡先フィールド616およびベンダ電話番号フィールド618を含んでもよい。
入力文書640から抽出されたNグラム632、634および636、ならびにメタデータデータ項目611が、ファジーテキストマッチングアルゴリズム650に入力されてもよい。1つの実装では、Nグラムとメタデータデータ項目との間のファジーマッチングが、各メタデータ列またはフィールドに対して実施されてもよい。660、662、664および666により示されるとおり、各メタデータフィールドの、最もよく一致する所定数のメタデータデータ項目が判断されてもよい。例えば、各メタデータフィールドにおいて上位20個の一致が識別されてもよい。
ファジーマッチングは、各メタデータデータ項目と、入力文書の抽出Nグラム632、634および636すべてとの間に実行されてもよい。マッチングは重み付けされてもよく、例えばユニグラム、バイグラムおよびトライグラムに異なる重みが与えられる。より高次のNグラムはより多くの構文情報を伝え得るので、例えば、トライグラムにバイグラムおよびユニグラムよりも大きな重みが与えられてもよく、バイグラムにユニグラムよりも大きな重みが与えられてもよい。
各メタデータフィールドからの上位の一致がさらに比較されて、所定数の最終的な一致が抽出されてもよい(670)。この比較プロセスにおいて、異なるフィールドに異なる重みが与えられてもよい。例えば、電話番号フィールド618よりも大きな重みが住所フィールド614に与えられてもよい。1つの例示的な実装では、最終的な上位3つのメタデータ項目が判断されるとよい。さらに、メタデータカテゴリフィールド612内の対応するデータ項目670が、最終的な上位一致メタデータカテゴリ680として識別されるとよい。一部の実装において、優先的な重みが、上位一致データ項目を複数有するメタデータ行に与えられてもよい。そのような選択的な重みが与えられるとよい理由は、同じ行内に一致データ項目が複数あることは、入力文書が、メタデータデータベースの当該の行に関連する実体の、より詳細な記述を含むことを示し、したがって、その文書が好適には当該の実体(またはメタデータカテゴリ)によりラベル付けされるとよいからである。
上記で開示された実装は、コンピューティング技術の改善を提供する。例えば、電子文書内のテキストデータは、文字ストリングデータ型および表現で処理され得る。本願明細書において開示される実装は、埋め込まれたテキストを備える文書パッチを、文書パッチのビットマップ画像を表現するデータ行列に変換し、よって、ハードウェアアクセラレーションされた行列操作を使用してより効率的に処理されるデータ構造を提供することを伴う。データ行列はさらに、行列データ構造の中のデータパターンの機械学習を介して認識され得る、埋め込みテキストのストリングコンテンツ以上の情報を含む。
上記の例示的な実装は、自動的な文書処理、識別および整理、例えば請求書の処理およびベンダの識別を促進する。同様の手法が、例えば(例えば宅配業者/物流サービスプロバイダにより)配達追跡において、文書を「配達済み票」として分類し配達済み票からベンダメタデータを抽出するために使用されてもよい。別の例として、上記の実装は、保険金請求処理において、自動車保険金請求、医療保険金請求および同様のものなど、別々のタイプの請求に請求文書を分類し、例えば医療系の請求のみから請求者メタデータ(例えば病院、クリニックおよび医師のメタデータ情報)を、または自動車保険金請求のみから製造業者メタデータ情報を抽出/識別するために使用されてもよい。
メタデータを識別するために画像分類を使用すること、および、より高い精度を達成するためまたは画像分類モデルの訓練画像が不完全であった場合の補足としてファジーテキストマッチングを使用すること、という原理は、産業および製造環境において広く適用され得る。例えば、電子機器の組立工場における電子部品の製造業者の認識が、電子機器製造業者のセットのロゴの画像認識に依拠してもよい。そのような画像ベースの認識はさらに、電子部品の画像からテキストを抽出し、抽出されたテキストと、画像ベースの分類モデルの訓練画像データベースよりも包括的であるとよい電子機器製造業者のメタデータデータベースとをファジーマッチングすることにより、補足されてもよい。よって、訓練画像の一部でなかったロゴを有する電子部品製造業者(例えば製造業者が新しいロゴに変更した)が、依然として、補足的なファジーテキストマッチングプロセスを介して相当な精度で識別されてもよい。
上記の開示は、テキストベースの文書分類および画像ベースのメタデータ識別を例として使用するが、分類問題を単純化して計算強度を軽減するために複数の分類または回帰モデルをカスケード接続する原理は、大きく多様な特徴セットおよび特徴空間が関与する他のシナリオに広く適用され得る。
上述した方法、デバイス、処理および論理は、多数の異なる形で、ハードウェアおよびソフトウェアの多数の異なる組み合わせにおいて実装されてもよい。例えば、各実装の全部または一部は、中央処理ユニット(CPU:Central Processing Unit)、マイクロコントローラもしくはマイクロプロセッサなどの命令プロセッサを含む回路構成、あるいは特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、プログラム可能論理デバイス(PLD:Programmable Logic Device)もしくはフィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、あるいは個別論理か、またはアナログ回路コンポーネント、デジタル回路コンポーネントもしくはその両方を含む他の回路コンポーネントかを含む回路構成、あるいはその任意の組み合わせであってもよい。回路構成は、例として、相互接続された個別のハードウェアコンポーネントを含んでもよく、さらに/または単一の集積回路ダイ上で組み合わされてもよく、複数の集積回路ダイの間に分散されてもよく、または共通パッケージ内の複数の集積回路ダイの複数チップモジュール(MCM:Multiple Chip Module)に実装されてもよい。
回路構成はさらに、回路構成により実行される命令を含んでも、またはそれにアクセスしてもよい。命令は、フラッシュメモリ、ランダムアクセスメモリ(RAM:Random Access Memory)、読み取り専用メモリ(ROM:Read Only Memory)、消去可能プログラム可能読み取り専用メモリ(EPROM:Erasable Programmable Read Only Memory)、またはコンパクトディスク読み取り専用メモリ(CDROM:Compact Disc Read Only Memory)、ハードディスクドライブ(HDD:Hard Disk Drive)もしくはその他磁気ディスクもしくは光学ディスクなどの磁気ディスクもしくは光学ディスク、または別の機械可読媒体内もしくは機械可読媒体上など、一時的な信号以外の有形のストレージ媒体に記憶されてもよい。コンピュータプログラム製品などの製品が、ストレージ媒体と、媒体内または媒体上に記憶された命令とを含んでもよく、命令は、デバイスにおいて回路構成により実行されると、上述したまたは図面に示した処理のいずれかをデバイスに実装させてもよい。
各実装は、任意選択で複数の分散型処理システムを含む、複数のプロセッサおよびメモリの中などの複数のシステムコンポーネント間に、回路構成として分散されてもよい。パラメータ、データベース、および他のデータ構造は、別々に記憶および管理されてもよく、単一のメモリまたはデータベースに組み入れられてもよく、多数の異なる形に論理的および物理的に編成されてもよく、連結リスト、ハッシュテーブル、アレイ、レコード、オブジェクトまたは黙示のストレージメカニズムなどのデータ構造を含む、多数の異なる形で実装されてもよい。プログラムは、単一プログラムの一部(例えばサブルーチン)であっても、別々のプログラムであっても、いくつかのメモリおよびプロセッサに分散されていてもよく、または共有ライブラリ(例えばダイナミックリンクライブラリ(DLL:Dynamic Link Library))などのライブラリにおいてなど、多数の異なる形で実装されてもよい。例えばDLLは、回路構成により実行されると、上述した、または図面に示された処理のいずれかを実行する命令を記憶してもよい。
様々な実装が具体的に記載された。しかしながら、その他多数の実装も可能である。

Claims (20)

  1. メタデータフィールド内に編成されたメタデータデータ要素を含むデータベースであって、前記メタデータフィールドは、メタデータカテゴリデータ要素を含んだメタデータカテゴリフィールドを少なくとも含む、前記データベースと、
    機械学習アルゴリズムに基づいて確立されたテキストベースの文書分類器モデル、メタデータカテゴリ識別モデルおよびファジーテキストマッチャーを記憶するメモリと、
    前記データベースおよび前記メモリと通信しているシステム回路構成であって、
    電子文書を受信し、
    前記テキストベースの文書分類器モデルを使用して、前記電子文書が所定のセットの文書カテゴリに属すると判断するのに応答して、
    前記電子文書に対応する画像を取得し、
    前記画像と、前記メタデータカテゴリフィールドの第1のメタデータカテゴリデータ要素との第1の関連を、前記メタデータカテゴリ識別モデルを使用して取得し、
    前記電子文書と、前記データベースの前記メタデータデータ要素のサブセットとの第2の関連群を、前記ファジーテキストマッチャーを使用して取得し、
    前記第1のメタデータカテゴリデータ要素と、前記データベースの前記メタデータデータ要素の前記サブセットに対応するメタデータカテゴリデータ要素のセットとの中で、単一のメタデータカテゴリデータ要素を、前記電子文書のラベルとして、前記第1の関連および前記第2の関連群に基づき決定する、
    ように構成された前記システム回路構成と、
    を含むシステム。
  2. 前記システム回路構成は、前記電子文書を対応するテキスト文書に変換するようさらに構成され、前記システム回路構成は、
    分類結果を取得するために、前記対応するテキスト文書を前記テキストベースの文書分類器モデルに入力することと、
    前記分類結果が前記所定のセットの文書カテゴリ中にあると判断することと、
    により、前記電子文書が前記所定のセットの文書カテゴリに属すると判断するよう構成される、請求項1に記載のシステム。
  3. 前記システム回路構成は、前記電子文書に対応する前記画像から関心対象領域を取得するようさらに構成され、
    前記システム回路構成は、前記メタデータカテゴリ識別モデルを前記関心対象領域に適用することにより前記第1の関連を取得するよう構成される、
    請求項1に記載のシステム。
  4. 前記関心対象領域は、前記画像の一部を含む、請求項3に記載のシステム。
  5. 前記システム回路構成は、
    前記画像に対する前記関心対象領域の位置およびサイズを決定することと、
    前記画像から前記関心対象領域を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取り、さらに/またはその形を変更し、さらに/または整列し直すことと
    により、前記電子文書に対応する前記画像から前記関心対象領域を取得するよう構成される、請求項3に記載のシステム。
  6. 前記システム回路構成は、
    前記画像に対する前記関心対象領域の位置およびサイズを決定することと、
    切り取られた画像を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取ることと、
    前記切り取られた画像を、前記関心対象領域を取得するために前処理することと、
    により、前記電子文書に対応する前記画像から前記関心対象領域を取得するよう構成される、請求項3に記載のシステム。
  7. 前記関心対象領域は、画素の配列を含み、前記切り取られた画像を前処理することは、画素分解能の低減と、ゆがみの修正とのうちの少なくとも1つを含む、請求項6に記載のシステム。
  8. 前記システム回路構成は、
    前記電子文書を表現するために、前記電子文書に含まれるテキストのnグラムのセットを抽出することと、
    前記データベースの前記メタデータデータ要素のうち前記nグラムのセットと一致した前記サブセットを識別して前記第2の関連群を取得するために、前記nグラムのセットと前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行することと、
    により、前記ファジーテキストマッチャーを使用して、前記電子文書と、前記データベースの前記メタデータデータ要素の前記サブセットとの前記第2の関連群を取得するよう構成される、請求項1に記載のシステム。
  9. ファジーマッチングを実行することは、
    前記電子文書の前記nグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、前記メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、前記nグラムのセットと、前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行することと、
    前記nグラムのセットと最も一致したメタデータデータ要素の前記集合の対応する関連群の、重み付けされた比較によって、前記メタデータデータ要素の前記サブセットを識別することと、
    を含む、請求項8に記載のシステム。
  10. 前記nグラムのセットは、ユニグラムのセット、バイグラムのセットおよびトライグラムのセットを含む、請求項8に記載のシステム。
  11. 前記nグラムのセットと、前記データベースのデータ項目との間のファジーマッチングを実行することは、前記ユニグラムのセット、前記バイグラムのセットおよび前記トライグラムのセットに異なる重みをかけることを含む、請求項10に記載のシステム。
  12. 前記トライグラムのセットに、前記バイグラムのセットよりも大きな重みが与えられ、前記バイグラムのセットに、前記ユニグラムのセットよりも大きな重みが与えられる、請求項11に記載のシステム。
  13. メモリとシステム回路構成とを有するシステムにより電子文書を受信するステップと、
    機械学習アルゴリズムに基づいて確立されて前記メモリに記憶されたテキストベースの文書分類器モデルを使用して、前記電子文書が所定のセットの文書カテゴリに属すると判断するステップに応答して、
    前記電子文書に対応する画像を取得するステップと、
    前記画像と、メタデータカテゴリのセットの中の第1のメタデータカテゴリとの第1の関連を、前記メモリに記憶されたメタデータカテゴリ識別モデルを使用して取得するステップであって、前記メタデータカテゴリのセットは、メタデータカテゴリフィールドを含むメタデータフィールドに編成されたメタデータデータ要素を含む前記システムのデータベース内の前記メタデータカテゴリフィールドにデータ要素として記憶される、前記ステップと、
    前記電子文書と、前記データベースの前記メタデータデータ要素のサブセットとの第2の関連群を、前記メモリに記憶されたファジーテキストマッチャーを使用して取得するステップと、
    前記第1のメタデータカテゴリと、前記データベースの前記メタデータデータ要素の前記サブセットに対応するメタデータカテゴリのセットとの中で、単一のメタデータカテゴリを、前記第1の関連および前記第2の関連群に基づいて、前記電子文書のラベルとして決定するステップと、
    を含む方法。
  14. 前記方法は、前記電子文書を対応するテキスト文書に変換するステップをさらに含み、前記電子文書が前記所定のセットの文書カテゴリに属すると判断するステップは、
    分類結果を取得するために、前記対応するテキスト文書を前記テキストベースの文書分類器モデルに入力するステップと、
    前記分類結果が前記所定のセットの文書カテゴリ中のものであると判断するステップと、
    による、請求項13に記載の方法。
  15. 前記方法は、前記電子文書に対応する前記画像から関心対象領域を取得するようさらに構成され、前記第1の関連を取得するステップは、前記メタデータカテゴリ識別モデルを前記関心対象領域に適用するステップを含む、請求項13に記載の方法。
  16. 前記関心対象領域は、前記画像の一部を含む、請求項15に記載の方法。
  17. 前記電子文書に対応する前記画像から前記関心対象領域を取得するステップは、
    前記画像に対する前記関心対象領域の位置およびサイズを決定するステップと、
    前記画像から前記関心対象領域を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取り、さらに/またはその形を変更し、さらに/または整列し直すステップと、
    を含む、請求項15に記載の方法。
  18. 前記電子文書に対応する前記画像から前記関心対象領域を取得するステップは、
    前記画像に対する前記関心対象領域の位置およびサイズを決定するステップと、
    切り取られた画像を取得するために、前記関心対象領域の前記位置およびサイズに従って前記画像を切り取るステップと、
    前記切り取られた画像を、前記関心対象領域を取得するために前処理するステップと、
    を含む、請求項15に記載の方法。
  19. 前記電子文書と、前記データベースの前記メタデータデータ要素の前記サブセットに対応する前記メタデータカテゴリのセットとの前記第2の関連群を取得するステップは、
    前記電子文書を表現するために、前記電子文書に含まれるテキストのnグラムのセットを抽出するステップと、
    前記データベースの前記メタデータデータ要素のうち前記nグラムのセットと一致した前記サブセットを識別して前記第2の関連群を取得するために、前記nグラムのセットと前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行するステップと、
    を含む、請求項13に記載の方法。
  20. ファジーマッチングを実行するステップは、
    前記電子文書の前記nグラムのセットと最も一致したメタデータデータ要素の集合を取得して対応する関連群を取得するために、前記メタデータフィールドそれぞれの中で所定数の上位一致メタデータデータ要素を識別するべく、前記nグラムのセットと、前記データベースの前記メタデータデータ要素との間のファジーマッチングを実行するステップと、
    前記nグラムのセットと最も一致したメタデータデータ要素の前記集合の対応する関連群の、重み付けされた比較によって、前記メタデータデータ要素の前記サブセットを識別するステップと、
    を含む、請求項19に記載の方法。
JP2018197523A 2017-11-13 2018-10-19 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別 Active JP6629942B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/810,885 US11106716B2 (en) 2017-11-13 2017-11-13 Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching
US15/810,885 2017-11-13

Publications (2)

Publication Number Publication Date
JP2019114239A true JP2019114239A (ja) 2019-07-11
JP6629942B2 JP6629942B2 (ja) 2020-01-15

Family

ID=63833819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018197523A Active JP6629942B2 (ja) 2017-11-13 2018-10-19 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別

Country Status (4)

Country Link
US (1) US11106716B2 (ja)
EP (1) EP3483784A3 (ja)
JP (1) JP6629942B2 (ja)
CN (1) CN109783635A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064260A (ja) * 2019-10-16 2021-04-22 トッパン・フォームズ株式会社 学習装置、学習方法、及びプログラム
WO2021107447A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치
KR102363769B1 (ko) * 2020-09-16 2022-02-16 광운대학교 산학협력단 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템 및 방법, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체
KR102554452B1 (ko) * 2022-06-21 2023-07-11 한국과학기술정보연구원 메타데이터 추출장치 및 메타데이터 추출 방법
KR102571815B1 (ko) * 2022-11-14 2023-08-28 주식회사 플랜티넷 객체 군집화 및 객체 선택 기반 문서 분류 방법 및 장치

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270224B2 (en) * 2018-03-30 2022-03-08 Konica Minolta Business Solutions U.S.A., Inc. Automatic generation of training data for supervised machine learning
US10942963B1 (en) * 2018-04-05 2021-03-09 Intuit Inc. Method and system for generating topic names for groups of terms
JP7140591B2 (ja) * 2018-07-26 2022-09-21 キヤノン株式会社 画像形成装置及びその制御方法、並びにプログラム
US11074354B2 (en) * 2018-09-19 2021-07-27 International Business Machines Corporation Segmenting, redacting, and transporting secure documents in a mixed security environment
US10769496B2 (en) * 2018-10-25 2020-09-08 Adobe Inc. Logo detection
US10949664B2 (en) * 2019-04-08 2021-03-16 Kyocera Document Solutions Inc. Optical character recognition training data generation for neural networks by parsing page description language jobs
CN110309306B (zh) * 2019-06-19 2022-08-26 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110532448B (zh) * 2019-07-04 2023-04-18 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN110704687B (zh) * 2019-09-02 2023-08-11 平安科技(深圳)有限公司 文字布局方法、装置及计算机可读存储介质
CN111026916B (zh) * 2019-12-10 2023-07-04 北京百度网讯科技有限公司 文本描述的转换方法、装置、电子设备及存储介质
US11361565B2 (en) * 2019-12-12 2022-06-14 The Boeing Company Natural language processing (NLP) pipeline for automated attribute extraction
CN111143643B (zh) * 2019-12-23 2023-11-03 中汇信息技术(上海)有限公司 元素识别方法、装置、可读存储介质和电子设备
WO2021137689A1 (en) * 2019-12-31 2021-07-08 Mimos Berhad System for library materials classification and a method thereof
US11455812B2 (en) * 2020-03-13 2022-09-27 International Business Machines Corporation Extracting non-textual data from documents via machine learning
CN111492370B (zh) * 2020-03-19 2023-05-26 香港应用科技研究院有限公司 用于识别结构化布局的文本图像的装置和方法
CN111506727B (zh) * 2020-04-16 2023-10-03 腾讯科技(深圳)有限公司 文本内容类别获取方法、装置、计算机设备和存储介质
US11651024B2 (en) * 2020-05-13 2023-05-16 The Boeing Company Automated part-information gathering and tracking
CN111597804B (zh) * 2020-05-15 2023-03-10 腾讯科技(深圳)有限公司 一种实体识别模型训练的方法以及相关装置
CN111709327B (zh) * 2020-05-29 2023-06-27 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
BR112023000470A2 (pt) 2020-07-24 2023-03-28 Bristol Myers Squibb Co Classificação de documentos de farmacovigilância usando análise de imagem
US20220100964A1 (en) * 2020-09-25 2022-03-31 UiPath, Inc. Deep learning based document splitter
US11830268B2 (en) * 2020-11-16 2023-11-28 Kyocera Document Solutions Inc. Hierarchal document classification system and method
KR102469779B1 (ko) * 2020-11-25 2022-11-21 신현준 문서 분류 방법 및 이를 위한 문서 관리 장치
US11822599B2 (en) * 2020-12-16 2023-11-21 International Business Machines Corporation Visualization resonance for collaborative discourse
US11704352B2 (en) 2021-05-03 2023-07-18 Bank Of America Corporation Automated categorization and assembly of low-quality images into electronic documents
US11798258B2 (en) 2021-05-03 2023-10-24 Bank Of America Corporation Automated categorization and assembly of low-quality images into electronic documents
US11810381B2 (en) 2021-06-10 2023-11-07 International Business Machines Corporation Automatic rule prediction and generation for document classification and validation
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification
US11881041B2 (en) 2021-09-02 2024-01-23 Bank Of America Corporation Automated categorization and processing of document images of varying degrees of quality
US20230101817A1 (en) * 2021-09-28 2023-03-30 Nationstar Mortgage LLC, d/b/a/ Mr. Cooper Systems and methods for machine learning-based data extraction
CN114760369B (zh) * 2022-04-14 2023-12-19 曙光网络科技有限公司 一种协议元数据提取方法、装置、设备及存储介质
CN114969001B (zh) * 2022-05-24 2024-05-10 浪潮卓数大数据产业发展有限公司 一种数据库元数据字段匹配方法、装置、设备及介质
US11615236B1 (en) * 2022-07-19 2023-03-28 Intuit Inc. Machine learning model based electronic document completion
CN117493641B (zh) * 2024-01-02 2024-03-22 中国电子科技集团公司第二十八研究所 一种基于语义元数据的二次模糊搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112993A (ja) * 1998-09-30 2000-04-21 Ricoh Co Ltd 文書分類方法、記憶媒体、文書分類装置及び文書分類システム
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2012517637A (ja) * 2009-02-10 2012-08-02 コファックス, インコーポレイテッド 文書の有効性を決定するためのシステム、方法およびコンピュータプログラム製品
JP2015503813A (ja) * 2012-01-12 2015-02-02 コファックス, インコーポレイテッド モバイル画像キャプチャおよび処理のためのシステムならびに方法
JP2016071412A (ja) * 2014-09-26 2016-05-09 キヤノン株式会社 画像分類装置、画像分類システム、画像分類方法、及びプログラム
US20170278015A1 (en) * 2016-03-24 2017-09-28 Accenture Global Solutions Limited Self-learning log classification system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU9228298A (en) * 1997-09-12 1999-04-05 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US8145677B2 (en) * 2007-03-27 2012-03-27 Faleh Jassem Al-Shameri Automated generation of metadata for mining image and text data
US9767354B2 (en) * 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8938257B2 (en) * 2011-08-19 2015-01-20 Qualcomm, Incorporated Logo detection for indoor positioning
WO2013173626A2 (en) * 2012-05-18 2013-11-21 Clipfile Corporation Using content
US9524274B2 (en) 2013-06-06 2016-12-20 Xerox Corporation Methods and systems for generation of document structures based on sequential constraints
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10140511B2 (en) * 2013-03-13 2018-11-27 Kofax, Inc. Building classification and extraction models based on electronic forms
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112993A (ja) * 1998-09-30 2000-04-21 Ricoh Co Ltd 文書分類方法、記憶媒体、文書分類装置及び文書分類システム
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2012517637A (ja) * 2009-02-10 2012-08-02 コファックス, インコーポレイテッド 文書の有効性を決定するためのシステム、方法およびコンピュータプログラム製品
JP2015503813A (ja) * 2012-01-12 2015-02-02 コファックス, インコーポレイテッド モバイル画像キャプチャおよび処理のためのシステムならびに方法
JP2016071412A (ja) * 2014-09-26 2016-05-09 キヤノン株式会社 画像分類装置、画像分類システム、画像分類方法、及びプログラム
US20170278015A1 (en) * 2016-03-24 2017-09-28 Accenture Global Solutions Limited Self-learning log classification system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064260A (ja) * 2019-10-16 2021-04-22 トッパン・フォームズ株式会社 学習装置、学習方法、及びプログラム
JP7365845B2 (ja) 2019-10-16 2023-10-20 Toppanエッジ株式会社 学習装置、学習方法、及びプログラム
WO2021107447A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치
KR102363769B1 (ko) * 2020-09-16 2022-02-16 광운대학교 산학협력단 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템 및 방법, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체
KR102554452B1 (ko) * 2022-06-21 2023-07-11 한국과학기술정보연구원 메타데이터 추출장치 및 메타데이터 추출 방법
KR102571815B1 (ko) * 2022-11-14 2023-08-28 주식회사 플랜티넷 객체 군집화 및 객체 선택 기반 문서 분류 방법 및 장치

Also Published As

Publication number Publication date
CN109783635A (zh) 2019-05-21
JP6629942B2 (ja) 2020-01-15
US11106716B2 (en) 2021-08-31
EP3483784A3 (en) 2019-09-11
EP3483784A2 (en) 2019-05-15
US20190147103A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
JP6629942B2 (ja) 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別
US10936970B2 (en) Machine learning document processing
US20200081899A1 (en) Automated database schema matching
US20150331936A1 (en) Method and system for extracting a product and classifying text-based electronic documents
US10592704B2 (en) System and method for electronic automated printed circuit design
Singh et al. A study of moment based features on handwritten digit recognition
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
CN107943881B (zh) 题库生成方法、服务器及计算机可读存储介质
US20230351115A1 (en) Document image processing including tokenization of non-textual semantic elements
US12001966B2 (en) Generation of digital standards using machine-learning model
US11797774B2 (en) Extraction of genealogy data from obituaries
KR102502422B1 (ko) 전자 문서 내 인공지능 기반 정보 추출 방법 및 장치
CN113887422B (zh) 基于人工智能的表格图片内容提取方法、装置及设备
Agin et al. An approach to the segmentation of multi-page document flow using binary classification
Diem et al. Semi-automated document image clustering and retrieval
US20220044048A1 (en) System and method to recognise characters from an image
Bashir et al. Script identification: a review
JP7453731B2 (ja) 半構造化ドキュメントから情報を取り出す方法及びシステム
CN111753861A (zh) 主动学习自动图像标注***及方法
US20240127577A1 (en) Generating templates using structure-based matching
US12014561B2 (en) Image reading systems, methods and storage medium for performing geometric extraction
Tavoli et al. A Novel Word-Spotting Method for Handwritten Documents Using an Optimization-Based Classifier
KR20220142901A (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191205

R150 Certificate of patent or registration of utility model

Ref document number: 6629942

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250