JP2022056316A - 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents
文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2022056316A JP2022056316A JP2021038794A JP2021038794A JP2022056316A JP 2022056316 A JP2022056316 A JP 2022056316A JP 2021038794 A JP2021038794 A JP 2021038794A JP 2021038794 A JP2021038794 A JP 2021038794A JP 2022056316 A JP2022056316 A JP 2022056316A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- string
- feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 94
- 238000003860 storage Methods 0.000 title claims description 17
- 238000004590 computer program Methods 0.000 title claims description 10
- 239000011159 matrix material Substances 0.000 claims abstract description 71
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 239000010410 layer Substances 0.000 claims description 141
- 230000004927 fusion Effects 0.000 claims description 34
- 230000000007 visual effect Effects 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 239000002356 single layer Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 11
- 238000000034 method Methods 0.000 description 24
- 230000015654 memory Effects 0.000 description 12
- 210000004027 cell Anatomy 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000005945 translocation Effects 0.000 description 2
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
Description
(1)人手による入力:この方法は人員による手動入力である。
(2)テンプレートマッチングに基づく方法:この方法は一般に構造が簡単な証明書を対象とする。その識別されるべき領域は、一般に特定の幾何学的レイアウトを有する。標準テンプレートファイルを作成することにより、指定された位置で対応するテキストコンテンツを抽出し、OCR技術を用いて文字の認識を実現する。
(3)キーシンボル位置に基づく戦略検索:この方法では、キーシンボルを位置付けることにより、周辺で領域情報検索を行う。例えば、キーシンボル「日付」の周辺では、戦略に基づいて「2020年12月12日」というテキストを検索し、「日付」フィールドの属性値とする。
ここで、Rは、フィールド対応関係の集合を表し、フィールドの属性と値で表される。Mは、テーブルの対応関係の集合を表し、テーブルのヘッダとユニットで表される。Tは、すべての4種類のカテゴリの要素集合を表す。K、V、H、Cはそれぞれフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルの4種類のカテゴリを表す。
ここで、dijは文字列viと文字列vjの四角点座標の2次元座標における差分であり、rijは文字列viと文字列vjの中心点の角度差を表し、r∈[-π,π]、eijは文字列viと文字列vjの中心点のユークリッド距離を表す。
Claims (27)
- 実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するステップと、
前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するステップと、
前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するステップと、
前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するステップと、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するステップと、を含む、文字構造化抽出方法。 - 実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するステップは、
前記実体テキスト画像をシーン文字検出モデルに入力し、前記文字列の四角点座標を出力するステップと、
前記文字列の四角点座標をアフィン変換し、前記文字列の正矩形四角点座標を生成するステップと、
前記文字列の正矩形四角点座標に基づいて、前記実体テキスト画像において前記文字列の画像スライスを切り出すステップと、
前記文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力し、前記文字列のコンテンツを出力するステップと、を含む、請求項1に記載の文字構造化抽出方法。 - 前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するステップは、
前記文字列の位置およびコンテンツに基づいて前記文字列の入力トリプルと文字列同士の関係の入力トリプルとを確定するステップであって、前記文字列の入力トリプルは、前記文字列の四角点座標、コンテンツおよび画像スライスを含み、前記文字列同士の関係の入力トリプルは、文字列同士の四角点座標の差分値、文字列同士の中心点の角度差および文字列同士の中心点のユークリッド距離を含む、ステップと、
前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するステップと、を含む、請求項2に記載の文字構造化抽出方法。 - 前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するステップは、
前記文字列の四角点座標を前記文字列の幾何学的特徴として確定するステップと、
前記実体テキスト画像を畳み込みニューラルネットワークに入力し、視覚的2次元特徴マップを出力するステップと、
前記文字列の四角点座標に基づいて、前記視覚的2次元特徴マップにおける前記文字列の領域を算出し、関心領域座標変換操作により前記文字列の視覚的特徴を切り出すステップと、
前記文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、前記文字列のセマンティック特徴を取得するステップと、を含む、請求項3に記載の文字構造化抽出方法。 - 前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するステップは、
前記文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、前記文字列のマルチモーダル特徴を生成するステップと、
文字列同士の組み合わせに対して、対応する文字列のマルチモーダル特徴と前記文字列同士の関係の入力トリプルをスティッチングして、文字列同士の関係特徴を生成するステップと、を含む、請求項4に記載の文字構造化抽出方法。 - 前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するステップは、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴をグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するステップを含む、請求項5に記載の文字構造化抽出方法。 - 前記グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含み、Nは正の整数であり、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴とをグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するステップは、
前記グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するステップを含み、ただし、1≦l<N、lは正の整数である、請求項6に記載の文字構造化抽出方法。 - l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するステップは、
l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力し、l層目から出力される関係確率行列を取得するステップと、
l-1層目から出力された文字列のマルチモーダル特徴と、l層目から出力された関係確率行列とを乗算し、l層目から出力された関係確率行列の確率分布に基づいて前記文字列とそれに関連付けられた文字列を特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得するステップと、
l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算し、前記多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得するステップと、
単一層ゲート付き回帰型ユニットを用いてl層目に埋め込まれた文字列のマルチモーダル特徴を前記l-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得するステップと、を含む、請求項7に記載の文字構造化抽出方法。 - l=Nの場合、前記文字列のカテゴリおよび関係確率行列はl層目から出力される、請求項8に記載の文字構造化抽出方法。
- 前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するステップは、
前記文字列をトラバースし、i(ただし、iは正の整数である)番目の文字列のカテゴリを確定するステップと、
前記文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字に基づいて候補文字列関係集合を検索するステップと、
前記候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングするステップと、
i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出するステップと、
前記新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力するステップと、を含む、請求項1に記載の文字構造化抽出方法。 - 前記関係集合に基づいて新たな関係集合を取得するステップは、
i番目の文字列がフィールドの属性、フィールドの値およびテーブルのセルの三者からなる和集合に属する場合、前記文字列の関係確率行列のi行目のうち確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表すステップと、
i番目の文字列がテーブルのヘッダに属する場合、関係集合のすべての要素に対応する文字列を保持して、i番目の文字列との対応関係を表すステップと、
前記対応関係に基づいて、前記新たな関係集合を生成するステップと、を含む、請求項10に記載の文字構造化抽出方法。 - 文字列のカテゴリはフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルのうちの少なくとも1つを含み、フィールドの属性および値はフィールド対応関係を表し、テーブルのヘッダおよびセルはテーブル対応関係を表し、文字列は無向グラフの頂点を表し、フィールド対応関係およびテーブル対応関係は無向グラフの辺を表し、関係確率行列は無向グラフの辺構造に基づいて対応する頂点間に関係があるか否かを表す、請求項1~11のいずれか1項に記載の文字構造化抽出方法。
- 実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するように構成される検出モジュールと、
前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するように構成される抽出モジュールと、
前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するように構成される融合モジュールと、
前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するように構成される推定モジュールと、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するように構成される構築モジュールと、を含む、文字構造化抽出装置。 - 前記検出モジュールはさらに、
前記実体テキスト画像をシーン文字検出モデルに入力し、前記文字列の四角点座標を出力し、
前記文字列の四角点座標をアフィン変換し、前記文字列の正矩形四角点座標を生成し、
前記文字列の正矩形四角点座標に基づいて、前記実体テキスト画像において前記文字列の画像スライスを切り出し、
前記文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力し、前記文字列のコンテンツを出力するように構成される、請求項13に記載の文字構造化抽出装置。 - 前記抽出モジュールは、
前記文字列の位置およびコンテンツに基づいて前記文字列の入力トリプルと文字列同士の関係の入力トリプルとを確定するように構成される確定サブモジュールであって、前記文字列の入力トリプルは、前記文字列の四角点座標、コンテンツおよび画像スライスを含み、前記文字列同士の関係の入力トリプルは、文字列同士の四角点座標の差分値、文字列同士の中心点の角度差および文字列同士の中心点のユークリッド距離を含む、確定サブモジュールと、
前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するように構成される抽出サブモジュールと、を含む、請求項14に記載の文字構造化抽出装置。 - 前記抽出サブモジュールはさらに、
前記文字列の四角点座標を前記文字列の幾何学的特徴として確定し、
前記実体テキスト画像を畳み込みニューラルネットワークに入力して、視覚的2次元特徴マップを出力し、
前記文字列の四角点座標に基づいて、前記視覚的2次元特徴マップにおける前記文字列の領域を算出し、関心領域座標変換操作により前記文字列の視覚的特徴を切り出し、
前記文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、前記文字列のセマンティック特徴を取得するように構成される、請求項15に記載の文字構造化抽出装置。 - 前記融合モジュールはさらに、
前記文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、前記文字列のマルチモーダル特徴を生成し、
文字列同士の組み合わせに対して、対応する文字列のマルチモーダル特徴と前記文字列同士の関係の入力トリプルをスティッチングして、文字列同士の関係特徴を生成するように構成される、請求項16に記載の文字構造化抽出装置。 - 前記推定モジュールは、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴をグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するように構成される出力サブモジュールを含む、請求項17に記載の文字構造化抽出装置。 - 前記グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含み、Nは正の整数であり、
前記出力サブモジュールは、
前記グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するように構成される出力ユニットを含み、
ただし、1≦l<N、lは正の整数である、請求項18に記載の文字構造化抽出装置。 - 前記出力ユニットはさらに、
l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力し、l層目から出力される関係確率行列を取得し、
l-1層目から出力された文字列のマルチモーダル特徴と、l層目から出力された関係確率行列とを乗算し、l層目から出力された関係確率行列の確率分布に基づいて前記文字列とそれに関連付けられた文字列を特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得し、
l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算し、前記多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得し、
単一層ゲート付き回帰型ユニットを用いてl層目に埋め込まれた文字列のマルチモーダル特徴を前記l-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得するように構成される、請求項19に記載の文字構造化抽出装置。 - l=Nの場合、前記文字列のカテゴリおよび関係確率行列はl層目から出力される、請求項20に記載の文字構造化抽出装置。
- 前記構築モジュールは、
前記文字列をトラバースし、i(ただし、iは正の整数である)番目の文字列のカテゴリを確定するように構成されるトラバースサブモジュールと、
前記文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字に基づいて候補文字列関係集合を検索するように構成される検索サブモジュールと、
前記候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングするように構成されるスクリーニングサブモジュールと、
i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出するように構成される取得サブモジュールと、
前記新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力するように構成されるマッピングサブモジュールと、を含む、請求項13に記載の文字構造化抽出装置。 - 前記取得サブモジュールはさらに、
i番目の文字列がフィールドの属性、フィールドの値およびテーブルのセルの三者からなる和集合に属する場合、前記文字列の関係確率行列のi行目のうち確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表し、
i番目の文字列がテーブルのヘッダに属する場合、関係集合のすべての要素に対応する文字列を保持して、i番目の文字列との対応関係を表し、
前記対応関係に基づいて、前記新たな関係集合を生成するように構成される、請求項22に記載の文字構造化抽出装置。 - 文字列のカテゴリはフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルのうちの少なくとも1つを含み、フィールドの属性および値はフィールド対応関係を表し、テーブルのヘッダおよびセルはテーブル対応関係を表し、文字列は無向グラフの頂点を表し、フィールド対応関係およびテーブル対応関係は無向グラフの辺を表し、関係確率行列は無向グラフの辺構造に基づいて対応する頂点間に関係があるか否かを表す、請求項13~23のいずれか1項に記載の文字構造化抽出装置。
- 少なくとも1つのプロセッサと前記少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含む電子機器であって、
前記記憶装置に前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~12のいずれか1項に記載の文字構造化抽出方法が実現される電子機器。 - コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~12のいずれか1項に記載の文字構造化抽出方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体。 - プロセッサにより実行されると、請求項1~12のいずれか1項に記載の文字構造化抽出方法が実現される、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011049097.7 | 2020-09-29 | ||
CN202011049097.7A CN112001368A (zh) | 2020-09-29 | 2020-09-29 | 文字结构化提取方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022056316A true JP2022056316A (ja) | 2022-04-08 |
JP7335907B2 JP7335907B2 (ja) | 2023-08-30 |
Family
ID=73475005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021038794A Active JP7335907B2 (ja) | 2020-09-29 | 2021-03-10 | 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210201182A1 (ja) |
EP (1) | EP3839818A3 (ja) |
JP (1) | JP7335907B2 (ja) |
KR (1) | KR102610518B1 (ja) |
CN (1) | CN112001368A (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11403488B2 (en) * | 2020-03-19 | 2022-08-02 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for recognizing image-based content presented in a structured layout |
CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、***、终端及存储介质 |
CN113553892A (zh) * | 2020-12-31 | 2021-10-26 | 内蒙古卫数数据科技有限公司 | 一种基于深度学习和ocr的检验、体检报告单结果提取方法 |
CN112949415B (zh) * | 2021-02-04 | 2023-03-24 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和介质 |
CN112966522B (zh) * | 2021-03-03 | 2022-10-14 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN113033534B (zh) * | 2021-03-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113205041B (zh) * | 2021-04-29 | 2023-07-28 | 百度在线网络技术(北京)有限公司 | 结构化信息提取方法、装置、设备和存储介质 |
CN113297975B (zh) * | 2021-05-25 | 2024-03-26 | 新东方教育科技集团有限公司 | 表格结构识别的方法、装置、存储介质及电子设备 |
CN113326766B (zh) * | 2021-05-27 | 2023-09-29 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
CN113343982B (zh) * | 2021-06-16 | 2023-07-25 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113435331B (zh) * | 2021-06-28 | 2023-06-09 | 平安科技(深圳)有限公司 | 图像文字识别方法、***、电子设备及存储介质 |
CN113568965A (zh) * | 2021-07-29 | 2021-10-29 | 上海浦东发展银行股份有限公司 | 一种结构化信息的提取方法、装置、电子设备及存储介质 |
CN113779934B (zh) * | 2021-08-13 | 2024-04-26 | 远光软件股份有限公司 | 多模态信息提取方法、装置、设备及计算机可读存储介质 |
CN113657274B (zh) * | 2021-08-17 | 2022-09-20 | 北京百度网讯科技有限公司 | 表格生成方法、装置、电子设备及存储介质 |
CN113641746B (zh) * | 2021-08-20 | 2024-02-20 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
CN113849577A (zh) * | 2021-09-27 | 2021-12-28 | 联想(北京)有限公司 | 数据增强方法及装置 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN114092949A (zh) * | 2021-11-23 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 类别预测模型的训练、界面元素类别的识别方法及装置 |
CN114239598A (zh) * | 2021-12-17 | 2022-03-25 | 上海高德威智能交通***有限公司 | 文本元素阅读顺序确定方法、装置、电子设备及存储介质 |
WO2023128348A1 (ko) * | 2021-12-28 | 2023-07-06 | 삼성전자 주식회사 | 이미지 내의 텍스트를 인식하는 전자 장치 및 그 동작 방법 |
CN114299522B (zh) * | 2022-01-10 | 2023-08-29 | 北京百度网讯科技有限公司 | 图像识别方法装置、设备和存储介质 |
CN114419304A (zh) * | 2022-01-18 | 2022-04-29 | 深圳前海环融联易信息科技服务有限公司 | 一种基于图神经网络的多模态文档信息抽取方法 |
CN114417875A (zh) * | 2022-01-25 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、可读存储介质及程序产品 |
CN114443916B (zh) * | 2022-01-25 | 2024-02-06 | 中国人民解放军国防科技大学 | 一种面向试验数据的供需匹配方法及*** |
CN114821622B (zh) * | 2022-03-10 | 2023-07-21 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
CN114332872B (zh) * | 2022-03-14 | 2022-05-24 | 四川国路安数据技术有限公司 | 一种基于图注意力网络的合同文档容错信息提取方法 |
CN114820211B (zh) * | 2022-04-26 | 2024-06-14 | 中国平安人寿保险股份有限公司 | 理赔资料质检核验方法、装置、计算机设备及存储介质 |
CN116266259A (zh) * | 2022-06-22 | 2023-06-20 | 中移(苏州)软件技术有限公司 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
CN115270718B (zh) * | 2022-07-26 | 2023-10-10 | 中国医学科学院阜外医院 | 一种疾病编码的自动编目方法及*** |
WO2024043602A1 (ko) * | 2022-08-26 | 2024-02-29 | 삼성전자 주식회사 | 이미지로부터 텍스트를 획득하는 방법 및 서버 |
CN115270645B (zh) * | 2022-09-30 | 2022-12-27 | 南昌工程学院 | 一种基于ernie-dpcnn模型的设计方法及*** |
CN115545671B (zh) * | 2022-11-02 | 2023-10-03 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、*** |
CN116071740B (zh) * | 2023-03-06 | 2023-07-04 | 深圳前海环融联易信息科技服务有限公司 | ***识别方法、计算机设备及存储介质 |
CN117351324B (zh) * | 2023-12-04 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
CN117831056A (zh) * | 2023-12-29 | 2024-04-05 | 广电运通集团股份有限公司 | 票据信息提取方法、装置及票据信息提取*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153846A (ja) * | 2013-02-07 | 2014-08-25 | Mitsubishi Electric Corp | パターン認識装置 |
CN110321918A (zh) * | 2019-04-28 | 2019-10-11 | 厦门大学 | 基于微博的舆论机器人***情感分析和图像标注的方法 |
JP2019215647A (ja) * | 2018-06-12 | 2019-12-19 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、その制御方法及びプログラム。 |
CN111626049A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101504781B (zh) * | 2009-03-10 | 2011-02-09 | 广州广电运通金融电子股份有限公司 | 有价文件识别方法及装置 |
CA3056775A1 (en) | 2017-03-22 | 2018-09-27 | Drilling Info, Inc. | Extracting data from electronic documents |
US10430455B2 (en) * | 2017-06-09 | 2019-10-01 | Adobe Inc. | Sketch and style based image retrieval |
CN108614898B (zh) * | 2018-05-10 | 2021-06-25 | 爱因互动科技发展(北京)有限公司 | 文档解析方法与装置 |
CN109711464B (zh) * | 2018-12-25 | 2022-09-27 | 中山大学 | 基于层次化特征关系图构建的图像描述方法 |
CN110046355B (zh) * | 2019-04-25 | 2023-02-24 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
CN110209721A (zh) * | 2019-06-04 | 2019-09-06 | 南方科技大学 | 判决文书调取方法、装置、服务器及存储介质 |
CN110609891B (zh) * | 2019-09-18 | 2021-06-08 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
US11403488B2 (en) * | 2020-03-19 | 2022-08-02 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for recognizing image-based content presented in a structured layout |
CN111598093B (zh) * | 2020-05-25 | 2024-05-14 | 深圳前海微众银行股份有限公司 | 图片中文字的结构化信息生成方法、装置、设备及介质 |
-
2020
- 2020-09-29 CN CN202011049097.7A patent/CN112001368A/zh active Pending
-
2021
- 2021-03-05 KR KR1020210029549A patent/KR102610518B1/ko active IP Right Grant
- 2021-03-10 JP JP2021038794A patent/JP7335907B2/ja active Active
- 2021-03-11 EP EP21162002.6A patent/EP3839818A3/en not_active Ceased
- 2021-03-12 US US17/200,448 patent/US20210201182A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153846A (ja) * | 2013-02-07 | 2014-08-25 | Mitsubishi Electric Corp | パターン認識装置 |
JP2019215647A (ja) * | 2018-06-12 | 2019-12-19 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、その制御方法及びプログラム。 |
CN110321918A (zh) * | 2019-04-28 | 2019-10-11 | 厦门大学 | 基于微博的舆论机器人***情感分析和图像标注的方法 |
CN111626049A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102610518B1 (ko) | 2023-12-05 |
JP7335907B2 (ja) | 2023-08-30 |
KR20220043824A (ko) | 2022-04-05 |
US20210201182A1 (en) | 2021-07-01 |
CN112001368A (zh) | 2020-11-27 |
EP3839818A2 (en) | 2021-06-23 |
EP3839818A3 (en) | 2021-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022056316A (ja) | 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
KR102612295B1 (ko) | 어음 이미지 인식 방법, 장치, 기기 및 저장 매체 | |
CN112966522B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
US20210216717A1 (en) | Method, electronic device and storage medium for generating information | |
US11841921B2 (en) | Model training method and apparatus, and prediction method and apparatus | |
WO2022257578A1 (zh) | 用于识别文本的方法和装置 | |
JP2022006174A (ja) | モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品 | |
CN111324696B (zh) | 实体抽取方法、实体抽取模型的训练方法、装置及设备 | |
Zhao et al. | Recognition of building group patterns using graph convolutional network | |
CN111930894B (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
US20210209401A1 (en) | Character recognition method and apparatus, electronic device and computer readable storage medium | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
Lee et al. | Visual question answering over scene graph | |
CN114419304A (zh) | 一种基于图神经网络的多模态文档信息抽取方法 | |
US11468655B2 (en) | Method and apparatus for extracting information, device and storage medium | |
CN115311463A (zh) | 类别引导多尺度解耦的海洋遥感图像文本检索方法及*** | |
JP2023541527A (ja) | テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 | |
CN114566233A (zh) | 分子筛选的方法、装置、电子设备及存储介质 | |
CN116704506A (zh) | 一种基于交叉环境注意力的指代图像分割方法 | |
US20210312173A1 (en) | Method, apparatus and device for recognizing bill and storage medium | |
Yin et al. | Data Visualization Analysis Based on Explainable Artificial Intelligence: A Survey | |
CN116450827A (zh) | 一种基于大规模语言模型的事件模板归纳方法和*** | |
CN113343100B (zh) | 一种基于知识图谱的智慧城市资源推荐方法和*** | |
CN116311298A (zh) | 信息生成方法、信息处理方法、装置、电子设备以及介质 | |
Fang et al. | End‐to‐end power equipment detection and localization with RM transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230818 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7335907 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |