JP2022543052A - 文書処理方法、文書処理装置、文書処理機器、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

文書処理方法、文書処理装置、文書処理機器、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022543052A
JP2022543052A JP2022506431A JP2022506431A JP2022543052A JP 2022543052 A JP2022543052 A JP 2022543052A JP 2022506431 A JP2022506431 A JP 2022506431A JP 2022506431 A JP2022506431 A JP 2022506431A JP 2022543052 A JP2022543052 A JP 2022543052A
Authority
JP
Japan
Prior art keywords
document
features
processed
type
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022506431A
Other languages
English (en)
Inventor
明捷 ▲セン▼
厳 許
鼎 梁
学博 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022543052A publication Critical patent/JP2022543052A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本発明は、文書処理方法、装置、機器及びコンピュータ可読記憶媒体を提供する。前記文書処理方法は、処理すべき文書の意味的特徴及び視覚的特徴を取得するステップと、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップと、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するステップと、を含む。【選択図】図1

Description

本発明は、コンピュータビジョン技術に関し、特に文書処理方法、装置、機器及びコンピュータ可読記憶媒体に関する。
現在では、通常、OCR(Optical Character Recognition、光学文字認識)技術を用いて文書に対して認識を行う。当該技術認識を利用するときに、文書の種別を正確に取得して対応するテンプレートを用いる必要があるが、関連技術における文書の分類結果は、正確ではなかった。
したがって、如何にして文書を正確に分類するかは、早急に解決すべき問題となっている。
本発明の実施例は、文書分類の解決策を提供する。
本発明の一態様は、文書処理方法を提供する。前記文書処理方法は、処理すべき文書の意味的特徴及び視覚的特徴を取得するステップと、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップと、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するステップと、を含む。
本発明に係る何れかの実施形態を参照すると、前記処理すべき文書の意味的特徴を取得することは、前記処理すべき文書のテキスト認識結果を取得することと、前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得することと、を含む。
本発明に係る何れかの実施形態を参照すると、前記処理すべき文書のテキスト認識結果を取得することは、前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含む。
本発明に係る何れかの実施形態を参照すると、前記視覚的特徴及び前記意味的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップは、前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行うことと、正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得することと、を含む。
本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、ニューラルネットワークを介して実行され、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第1分類サブネットワークとを含み、前記第1分類サブネットワークは、前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定し、取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定する。
本発明に係る何れかの実施形態を参照すると、取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定することは、前記少なくとも1つの類似度のうちの最高類似度を取得することと、前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定することと、を含む。
本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングするステップを更に含み、当該トレーニングするステップは、種別がラベリングされたサンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得することと、前記汎用特徴を第2分類サブネットワークに入力し、前記サンプル文書の予測種別を取得することと、前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整することと、を含む。
本発明に係る何れかの実施形態を参照すると、前記少なくとも1種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも1種の文書に対して特徴抽出を行って取得されたものである。
本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定するステップを更に含む。
本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、選択指令に応答し、所定の文書種別から少なくとも1つの種別をターゲット種別として選択するステップを更に含み、前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定することは、前記処理すべき文書の汎用特徴と所定の少なくとも1つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1つのターゲット種別の文書の標準特徴との類似度を特定することを含む。
本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得するステップと、前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得するステップと、を更に含む。
本発明の一態様は、文書処理装置を提供する。前記文書処理装置は、処理すべき文書の意味的特徴及び視覚的特徴を取得するための取得モジュールと、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するための汎用モジュールと、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するための分類モジュールと、を備える。
本発明の一態様は、文書処理機器を提供する。前記文書処理機器は、不揮発性記憶媒体と、プロセッサとを備え、前記記憶媒体は、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、本発明の何れかの実施形態に記載の文書処理方法を実施する。
本発明の一態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施形態に記載の文書処理方法は、実施される。
本発明の一態様は、コンピュータプログラムを提供する。前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施形態に記載の文書処理方法は、実施される。
本発明の1つ又は複数の実施例の文書処理方法、装置、機器、コンピュータ可読媒体及びコンピュータプログラムでは、取得された文書の視覚的特徴及び意味的特徴に基づいて文書の汎用特徴を特定し、汎用特徴に基づいて文書の種別を特定する。本発明の文書処理方法では、任意の文書に対する正確な分類を実現可能であり、意味的特徴と視覚的特徴とを組み合わせて文書の汎用特徴を取得することにより、視覚的特徴が類似する異なる種別の文書の分類結果の正確性を向上させるとともに、文書分類のロバスト性も向上させる。
上述した一般的な記述と後文の詳細記述が単に例示的なものと解釈的なものであり、本発明を制限することができないことは、理解されるべきである。
ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本明細書に合致する実施例を示しつつ、明細書の記載とともに本発明の解決手段を解釈するために用いられる。
本発明の実施例に示す文書処理方法のフローチャートである。 本発明の実施例に係る視覚的特徴を抽出するためのニューラルネットワークの局所ネットワーク構造を模式的に示す。 本発明の実施例に係る意味的特徴を抽出するためのニューラルネットワークの局所ネットワーク構造を模式的に示す。 本発明の実施例に示すフォームのテキスト認識過程の模式図である。 本発明の実施例に示すユーザ選択インターフェースの模式図である。 本発明実施例に示す文書処理装置の模式図である。 本発明の実施例に示す文書処理機器の構造模式図である。
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「1種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び/又は」が、1つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。
理解すべきことは、本発明において第1、第2、第3等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第1情報が第2情報と呼称されてもよく、類似的に、第2情報が第1情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。
現在では、通常、OCR(Optical Character Recognition、光学的文字認識)技術を用いて文書に対して認識を行う。当該技術認識を利用するときに、文書の種別を正確に取得して対応するテンプレートを用いる必要があるが、関連技術における文書の分類結果は、正確ではない。
これに鑑みて、本発明の少なくとも1つの実施例は、文書処理方法を提供する。図1は、当該文書処理方法のフローを示し、ステップS101~ステップS103を含む。
前記文書(ドキュメント)は、書籍、書類、フォーム、手形、証明書及び非接触ICカード等のうちの1つ又は複数を含んでもよく、具体的に、例えば汎用文字、身分証明書、銀行カード、車検証、運転免許証、パスポート、フォーム、領収書、営業許可証及び手書き書類等であってもよい。当該文書処理方法によって上記文書の種別を自動的に認識可能であり、例えば、1枚の銀行カードを銀行カード種別として自動的に認識し、又は1枚の身分証明書を身分証明書種別として自動的に認識し、又は1枚の領収書を領収書種別として自動的に認識可能である。説明すべきことは、実現過程において、処理すべき文書が1つ又は複数あってもよい。つまり、ユーザは、自身の需要に応じて、処理すべき文書について一括処理か単件処理かを選択してもよい。実現過程において、一括処理における各処理すべき文書の処理手順は、単件処理すべき文書の処理手順と類似するため、単件処理すべき文書の処理手順を参照すればよい。本願において、記述の便宜上、処理すべき文書が単件であることを例として説明するが、本願技術案に対する限定とならない。
ステップS101では、処理すべき文書の意味的特徴及び視覚的特徴を取得する。
本ステップでは、意味的特徴の取得と視覚的特徴の取得との前後順について具体的に制限する意図がない。つまり、意味的特徴を取得してから視覚的特徴を取得してもよく、視覚的特徴を取得してから意味的特徴を取得してもよく、又は意味的特徴と視覚的特徴とを同時に取得してもよい。
本ステップでは、ニューラルネットワークを介して処理すべき文書の視覚的特徴を抽出してもよい。具体的に、まず、畳み込みカーネル(例えば3×3の畳み込みカーネル)を介して処理すべき文書の初期特徴を抽出し、次に、初期特徴を複数の(例えば7個)逆方向残差ブロックを通過させて中間特徴を順次抽出し、最後1つの逆方向残差ブロックから出力された中間特徴を1つの畳み込みカーネル(例えば1×1の畳み込みカーネル)を通過させて畳み込みさせることにより、指定次元の特徴を処理すべき文書の視覚的特徴として出力する。各逆方向残差ブロックは、何れも、1つの1×1の畳み込みカーネルと活性化関数(例えばRelu6)とからなる上昇チャンネルモジュール(入力された特徴のチャンネル数を拡張するために用いられる)、1つの深さ分割可能な畳み込み層(Depthwise separable convolution)と活性化関数とからなる抽出モジュール(各チャンネルの特徴を抽出し、各チャンネルの特徴を接続するために用いられる)、及び、1つの1×1の畳み込みカーネルからなる降下チャンネルモジュール(入力された特徴のチャンネル数を元に戻すために用いられる)を含む。各逆方向残差ブロックは、何れも、その入力を降下チャンネルモジュールの出力と加算して逆方向残差ブロックの出力とする。最後1つの逆方向残差ブロック以外の各逆方向残差ブロックの出力は、何れも次の逆方向残差ブロックの入力とする。
1つの例示において、図2は、処理すべき文書の視覚的特徴を抽出するためのネットワーク構造の一部を模式的に示す。図2に示す局所ネットワーク構造は、2つの逆方向残差ブロック、即ち、第1逆方向残差ブロック201及び第2逆方向残差ブロック202を含む。第1逆方向残差ブロック201は、順次接続される第1上昇チャンネルモジュール2011、第1抽出モジュール2012、第1降下チャンネルモジュール2013を備える。第1上昇チャンネルモジュール2011は、例えば、1つの1×1の畳み込みカーネル(Conv1×1)と活性化関数(例えばRelu6)によって構成されてもよく、第1抽出モジュール2012は、例えば、深さ分割可能な3×3畳み込み層(Dwise3×3)と活性化関数(例えばRelu6)によって構成されてもよく、第1降下チャンネルモジュール2013は、例えば、1つの1×1の畳み込みカーネル(Conv1×1)によって構成されてもよい。第1逆方向残差ブロック201の第1入力は、処理すべき文書の初期特徴であり、例えば、3×3の畳み込みカーネルを用いて抽出して得られてもよい。第1逆方向残差ブロック201の第1出力は、第1入力と第1降下チャンネルモジュールの出力との和であり、且つ第1出力は、第2逆方向残差ブロック202の第2入力である。第2逆方向残差ブロック202は、順次接続される第2上昇チャンネルモジュール2021、第2抽出モジュール2022、第2降下チャンネルモジュール2023を備える。第2上昇チャンネルモジュール2021は、例えば、1つの1×1の畳み込みカーネル(Conv1×1)と活性化関数(例えば、Relu6)によって構成されてもよく、第2抽出モジュール2022は、例えば、深さ分割可能な畳み込み層(Dwise3×3)と活性化関数(例えばRelu6)によって構成されてもよく、第2降下チャンネルモジュールは、例えば、1つの1×1の畳み込みカーネル(Conv1×1)によって構成されてもよい。第2逆方向残差ブロック202の第2出力は、第2入力と第2降下チャンネルモジュールの出力との和である。
本ステップでは、下記の方式によって処理すべき文書の意味的特徴を取得してもよい。まず、前記処理すべき文書のテキスト認識結果を取得し、次に、前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得する。
テキスト認識結果は、処理すべき文書におけるテキスト内容を抽出して特定の方式によって示す結果であってもよい。1つの例示において、OCR技術を用いて処理すべき文書のテキスト認識結果を取得してもよい。
ニューラルネットワークを介してテキスト認識結果の意味的特徴を抽出してもよい。具体的に、テキスト認識結果の異なる階層の特徴を抽出してから、上記異なる階層の特徴に対して接続及び抽出を行い、最後にテキスト認識結果の意味的特徴を取得してもよい。
図3を参照すると、1つの例示において、まず、少なくとも1つの第3抽出モジュール301を介してテキスト認識結果の中間特徴を取得する。各第3抽出モジュール301は、受容野が異なる畳み込みカーネルであってもよい。例えば、受容野が1である畳み込みカーネル、受容野が3である畳み込みカーネル、及び受容野が5である畳み込みカーネルを用いて、テキスト認識結果の3つの異なる階層の特徴(例えば、畳み込み及び/又はプーリング等の操作によって)を抽出してから、3つの異なる階層の特徴を接続することで中間特徴を取得してもよい。そして、第4抽出モジュール302(例えば、1×1の畳み込みカーネル)を介して中間特徴に対して更なる特徴抽出(例えば、畳み込み及び/又はプーリング等の操作によって)を行うことでテキスト認識結果の意味的特徴を取得してもよい。
上記図3に対応する特徴抽出過程は、意味的特徴の抽出の1つの例示に過ぎず、テキスト認識結果の意味的特徴を抽出する方式に対する具体的な限定ではない。より多く若しくはより少ない畳み込みカーネル、及び他の受容野の組み合わせを用いて、異なる階層の特徴を抽出してもよい。
処理すべき文書の意味的特徴は、視覚的特徴が類似するがテキスト内容が異なる複数種の文書を区分することができる。その一方、上記複数種の文書がちょうど関連技術において正確に分類されない場合の1つであり、本実施例では、意味的特徴を追加することにより、関連技術におけるこの問題を解決する。
ステップS102では、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定する。
ステップS101において視覚的特徴の抽出及び意味的特徴の抽出を実施するときに、2種の特徴のマージが容易にするように、次元が同じである視覚的特徴及び意味的特徴を出力してもよい。無論、本実施例では、ステップS101で抽出された視覚的特徴と意味的特徴との次元関係について制限する意図がない。
ステップS101において視覚的特徴の抽出及び意味的特徴の抽出を実施するときに、異なる次元の視覚的特徴及び意味的特徴を出力してもよい。このような場合に、2種の特徴の次元を比較してから、2種の特徴のうち次元の高い特徴について次元削減を行うことで2種の特徴の次元を同じにし、2種の特徴のマージを行ってもよい。次元削減方式は、例えば、線形次元削減及び非線形次元削減を採用してもよい。
1つの例示において、まず、前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行い、次に、正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得する。
他の方式によって処理すべき文書の汎用特徴を取得してもよい。例えば、視覚的特徴及び意味的特徴に対して正規化又は標準化を行った後、加重加算を行い、又は、ポイントごとにビット単位で加算する方式又はベクトル連結の方式を採用して意味的特徴及び視覚的特徴をマージすることにより、処理すべき文書の汎用特徴を取得等してもよい。
本発明の実施例において、処理すべき文書の意味的特徴及び視覚的特徴をマージすることにより、処理すべき文書の汎用特徴を取得することができる。処理すべき文書の汎用特徴は、ステップS103における文書分類に用いられてもよく、文書照合に用いられることで文書ピクチャとのマッチングを取ってもよい。
ステップS103では、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定する。
本発明の実施例では、取得された文書の視覚的特徴及び意味的特徴に基づいて文書の汎用特徴を特定し、汎用特徴に基づいて文書の種別を特定する。本発明の文書処理方法は、任意の文書に対する正確な分類を実現可能であり、意味的特徴と視覚的特徴とを組み合わせて文書の汎用特徴を取得することにより、視覚的特徴が類似する異なる種別の文書の分類結果の正確性を向上させるとともに、文書分類のロバスト性も向上させる。
幾つかの実施例において、以下の方式によって前記処理すべき文書のテキスト認識結果を取得してもよい。
まず、前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定する。
次に、各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得する。
最後に、前記単語分割処理結果に対応する特徴ベクトルを取得する。
図4は、1つの処理すべき文書(即ち、フォーム)のテキスト認識過程を示す。テキスト認識により、処理すべき文書におけるターゲットテキストボックス、即ち401~415という15個のテキストボックス、及び各ターゲットテキストボックスに含まれるテキスト内容を特定する。例えば、テキストボックス401には、事務用品購入要求表が含まれ、テキストボックス402には、記入日時年月日が含まれ、テキストボックス415には、社長意見が含まれている。各テキストボックス内のテキスト内容に対して単語分割処理を行うことにより、複数の単語分割処理結果、例えば、416~426という11個の単語分割処理結果を取得し、即ち、上記15個のテキストボックス内のテキスト内容に対して単語分割処理を行って得られた一部の単語分割処理結果を取得する。単語分割処理結果は、単字又は単語を含んでもよく、例えば、単語分割処理結果416(事務)、417(用品)、418(購入要求)及び419(表)は、テキストボックス401中のテキスト内容に対して単語分割処理を行って得られた4個の単語分割処理結果であり、単語分割処理結果420(記入)、421(時間)、422(年)、423(月)及び424(日)は、テキストボックス402中のテキスト内容に対して単語分割処理を行って得られた5個の単語分割処理結果であり、単語分割処理結果425(社長)及び426(意見)は、テキストボックス415中のテキスト内容に対して単語分割処理を行って得られた2個の単語分割処理結果である。427~438は、12個の特徴ベクトルであり、各特徴ベクトルは、何れも単語分割処理結果を特徴ベクトルで示した1つの結果である。
本発明の実施例では、文書におけるターゲットテキストボックス及びターゲットテキストボックス内のテキスト内容を特定し、テキスト内容について単語分割処理及び特徴ベクトル表示を行うことにより、テキスト認識結果を取得する。文書におけるテキスト内容(例えば、文書における一部又は全部のテキスト内容)が抽出されるだけでなく、テキストボックスの区分及び単語分割処理を経ると、テキストにおける最小の単字/単語単位を得ることができる。したがって、意味的特徴の特定が非常に正確になり、更に文書分類の正確性が向上し、また、テキスト認識結果が特徴ベクトル表示であり、意味的特徴の抽出が容易になり、更に文書分類の効率が向上する。
幾つかの実施例では、前記文書処理方法は、ニューラルネットワークを介して実行されてもよく、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第1分類サブネットワークとを含んでもよい。前記第1分類サブネットワークは、具体的に、前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との少なくとも1つの類似度を特定し、少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定してもよい。
処理すべき文書の汎用特徴と標準特徴との次元が同じであってもよい。このように、汎用特徴と標準特徴との比較は、容易になる。汎用特徴と標準特徴との類似度は、両者のユークリッド距離を算出することで取得されてもよく、又は、両者の類似度を出力可能な1つのニューラルネットワークを介して取得されてもよい。当該ニューラルネットワークは、トレーニングによって得られる。
本発明の実施例では、ニューラルネットワーク内に各種の文書の標準特徴が予め設定されている。処理すべき文書の汎用特徴と異なる標準特徴との類似度を用いて処理すべき文書の種別を特定する。処理すべき文書と各種の標準文書との関係、即ち、近似するか否か及び近似する度合いを類似度によって表すため、分類結果の正確性が向上するとともに、演算が簡単であり、分類効率が更に向上する。
幾つかの実施例において、少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定することは、具体的に以下の方式を採用する。
まず、前記少なくとも1つの類似度のうちの最高類似度を取得する。
次に、前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する前記標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定する。
各類似度を比較することで最高類似度を特定する。少なくとも2つの同じ最高類似度が現れたときに、類似度を算出するステップに戻って、より高い精度で類似度を再算出してから、再度算出結果を比較することにより、1つの最高類似度を取得してもよい。計算を1回又は複数回繰り返しても、依然として少なくとも2つの同じ最高類似度を含む場合に、1つのみの最高類似度が残るまで、引き続き算出を繰り返す。
説明すべきことは、実現過程において、類似度と所定の類似度閾値とを比較することで、値が類似度閾値以上である1つ又は複数の類似度を選別してから、選別された類似度から最高類似度を取得してもよい。これにより、唯一の最高類似度を特定する実現方式は、上記挙げられた2種の場合を含んでもよいが、それらに限定されない。実現過程において、同じ又は類似する効果を奏する他の実現方式を採用してもよく、ここで一々挙げない。
本実施例では、類似度閾値よりも高い類似度のみは、有効な類似度と見なされる。つまり、処理すべき文書の汎用特徴と標準特徴との類似度が類似度閾値以上である場合こそ、処理すべき文書と標準文書とが近似すると思われ、更に、類似度が類似度閾値よりも高いほど、処理すべき文書と標準文書間との近似度合いが高くなると思われ、処理すべき文書の汎用特徴と標準特徴との類似度が類似度閾値よりも低い場合、処理すべき文書と標準文書とが近似しないと思われる。
本発明の実施例では、ニューラルネットワーク内に類似度閾値が予め設定されている。最高類似度と類似度閾値とを比較し、最高類似度が類似度閾値よりも大きいときこそ、処理すべき文書を標準文書に対応する種別に分類する。これにより、処理すべき文書の汎用特徴と全ての標準特徴との類似度が何れも低いときに、即ち、処理すべき文書が何れの標準文書に対応する種別にも属さないときに分類エラーが発生することを回避する。更に分類の正確性が向上し、所定種別以外の文書が誤って分類される問題は、回避される。
幾つかの実施例において、下記の方式を用いて前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングする。
まず、サンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得する。ただし、前記サンプル文書に種別がラベリングされている。
次に、前記汎用特徴を第2分類サブネットワークに入力し、前記サンプル文書の予測種別を取得する。
最後に、前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整する。
前記特徴抽出サブネットワークのネットワーク構造は、当該特徴抽出サブネットワーク内に入力された文書の汎用特徴を抽出可能にし、特徴抽出サブネットワークのトレーニングは、その抽出特徴の正確性を向上させることを意図する。
第2分類サブネットワークは、1つの分類器であり、例えば、少なくとも1つの全接続層及び正規化層によって構成されてもよい。第2分類サブネットワーク分類の種別の数は、一定であり、サンプル文書の種別の数、例えば5個、8個又は10個等に対応する。つまり、第2分類サブネットワークの出力は、各所定種別の確率であり、最も確率が高い1つの種別は、分類結果そのものである。例えば、サンプル文書は、合計で10種あり、それぞれA、B、C、D、E、F、G、H、I、Jであり、第2分類サブネットワークの出力次元は、10であり、それぞれ上記10個の種別に対応する。特徴抽出サブネットワークから抽出された1つのサンプル文書の汎用特徴が第2分類サブネットワークに入力された後、第2分類サブネットワークは、10個の確率を出力する。当該10個の確率は、それぞれ83%、2%、1%、3%、0.5%、0.2%、0.3%、5%、4%、1%である。上記10個の確率は、当該サンプル文書がそれぞれA、B、C、D、E、F、G、H、I、J類である確率となるため、第2分類サブネットワークは、サンプル確率の予測種別をAとして出力する。
ネットワーク損失値が所定損失値閾値よりも小さいときに、前記特徴抽出サブネットワークのネットワークパラメータに対する調整を停止し、及び/又は、調整回数が所定回数閾値を上回ったときに、前記特徴抽出サブネットワークのネットワークパラメータに対する調整を停止してもよい。
サンプル文書セットを予め用意してもよい。まず、複数のサンプル文書を取得し、次に、各前記サンプル文書の種別をそれぞれラベリングし、最後に、種別がラベリングされた複数のサンプル文書に基づいてサンプル文書セットを特定する。また、各種のサンプル文書から1つを当該類文書の標準テンプレートとして選択し、後続の標準特徴の記憶に備える。
本発明の実施例において、特徴抽出サブネットワークの抽出能力が、抽出された汎用特徴の正確性を決め、且つ汎用特徴の正確性が分類結果の正確性を決めるため、第2分類サブネットワークから出力された予測種別の正確性は、特徴抽出サブネットワークの抽出能力の強弱を表すことができる。第2分類サブネットワークを介して特徴抽出サブネットワークの抽出能力の表しを図り、更に特徴抽出サブネットワークのネットワークパラメータをフィードバックして調節し、ネットワークパラメータを最適化し続けることで特徴抽出サブネットワークの抽出能力を向上させ、更に抽出された汎用特徴の正確性及び文書分類の正確性を向上させる。
幾つかの実施例において、前記少なくとも1種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも1種の文書の標準テンプレートを処理して取得されたものである。
特徴抽出サブネットワークトは、レーニングを完了された後、それに入力された文書の汎用特徴を正確に抽出する能力を有する。各種の文書の標準テンプレートを先に特定してもよい。標準テンプレートは、レイアウトが鮮明であり、テキストボックス及び/又はテキストブロックの境界がはっきりしており、テキスト内容が完全である。各種の文書の標準テンプレートの汎用特徴を抽出した後、当該類文書の標準特徴として記憶する。更に標準テンプレートについてラベリングを行ってもよい。つまり、標準テンプレートの各位置、テキストボックス及び/又はテキストブロック等の属性についてラベリングを行ってもよい。これにより、当該標準テンプレートは、文書のレイアウト認識(document recognition)を行うために用いられることができる。
本発明の実施例において、標準テンプレート及び処理すべき文書の汎用文書が何れも特徴抽出サブネットワークを介して抽出されるため、汎用特徴と標準特徴が同源であり、規則標準が一致する。したがって、両者によって特定された類似度の正確性が高く、更に文書分類の正確性が向上する。
上記方式で記憶される標準特徴は、有限であり、全ての文書の種別をカバーすることができない。また、上記幾つかの実施例の紹介によると、最高類似度閾値が類似度閾値以上であるときのみ、処理すべき文書を最高類似度に対応する文書種別に分類することができる。上記2つの原因により、1つの文書の種別が所定の標準テンプレートでカバーされていないとき、分類を完了することができない。
したがって、幾つかの実施例において、以下の方式によって標準特徴を追加する。
前記最高類似度が所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定する。
最高類似度が類似度閾値よりも小さいことは、処理すべき文書が何れの所定の文書種別にも属さないことを意味する。つまり、当該処理すべき文書は、1つの新たな文書種別となる。分類に失敗したときに、分類が完了されなかった処理すべき文書を1つの新たな種別としてニューラルネットワークに記憶する。即ち、処理すべき文書を標準テンプレートとして記憶し、抽出された汎用特徴を当該新たな種別文書の標準特徴として記憶する。更に、当該種別が記憶された後、レイアウト認識に利用できるように、注意情報を生成することにより、ユーザに対して、当該種別の標準テンプレートについてラベリングを行うよう注意してもよい。
本発明の実施例において、特徴抽出サブネットワークが処理すべき文書の汎用特徴を正確に抽出可能であるため、第1分類サブネットワークは、分類次元又は数を自動的に拡張することができる。
本発明の実施例において、分類に失敗した処理すべき文書を1つの新たな種別として記憶して設定することにより、所定文書種別の数を自動的に拡張することができ、分類能力を向上させつつある。
幾つかの実施例において、選択指令に応答し、所定の文書種別から少なくとも1つの種別をターゲット種別として選択するステップを更に含む。前記選択指令は、ユーザの選択操作によってトリガされてもよく、トリガ条件を予め設定し且つトリガ条件を満たすときに自動的にトリガされてもよい。
下記の方式によって前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定する。つまり、前記処理すべき文書の汎用特徴と所定の少なくとも1つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1つのターゲット種別の文書の標準特徴との類似度を特定する。
1つの例示において、図5は、1つのユーザ選択インターフェースにおける一部の内容を示す。図から分かるように、所定の文書種別は、汎用文字、身分証明書、銀行カード、車検証、運転免許証、パスポート、汎用フォーム、付加価値税領収書、営業許可証及び手書き文字を含み、ユーザは、操作によって身分証明書、銀行カード、汎用フォーム、付加価値税領収書及び手書き文字をターゲット種別として選択する。そうすると、後続の認識すべき文書に基づいて処理を行う過程において、ユーザによって選定された複数の種別を参照とする。
説明すべきことは、図5に示す内容が1種の可能な実現方式に過ぎない。実際の応用中に、ユーザは、自らテンプレートを作成することで新たなターゲット種別を確立し、新たなターゲット種別を認識すべき文書の処理過程における参照としてもよい。また、ターゲット種別は、図5に示す複数種の種別のうちの少なくとも一部を含んでもよく、図5に示す場合よりも多くなってもよく、少なくなってもよい。ここで限定されない。
本発明は、文書処理装置を更に提供する。図6は、当該装置の構造を示す。前記装置は、処理すべき文書の意味的特徴及び視覚的特徴を取得するための取得モジュール601と、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するための汎用モジュール602と、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するための分類モジュール603と、を備える。
幾つかの実施例において、前記取得モジュールは、具体的に、前記処理すべき文書のテキスト認識結果を取得し、前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得する。
幾つかの実施例において、前記処理すべき文書のテキスト認識結果を取得することは、前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含む。
幾つかの実施例において、前記汎用モジュールは、具体的に、前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行い、正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得する。
幾つかの実施例において、前記文書処理装置は、ニューラルネットワークを含み、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第1分類サブネットワークとを含み、前記第1分類サブネットワークは、具体的に、前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定し、取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定する。
幾つかの実施例において、前記第1分類サブネットワークは、取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定する際に、具体的に、前記少なくとも1つの類似度のうちの最高類似度を取得し、前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定する。
幾つかの実施例において、前記装置は、前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングするためのトレーニングモジュールを更に備え、当該トレーニングモジュールは、種別がラベリングされたサンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得し、前記汎用特徴を第2分類サブネットワークに入力し、前記サンプル文書の予測種別を取得し、前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整する。
幾つかの実施例において、前記少なくとも1種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも1種の文書に対して特徴抽出を行って取得されたものである。
幾つかの実施例において、前記装置は、拡張モジュールを更に備え、当該拡張モジュールは、前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定する。
幾つかの実施例において、前記装置は、ターゲットモジュールを更に備え、当該ターゲットモジュールは、選択指令に応答し、所定の文書種別から少なくとも1つの種別をターゲット種別として選択し、前記第1分類サブネットワークは、前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定する際に、具体的に、前記処理すべき文書の汎用特徴と所定の少なくとも1つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1つのターゲット種別の文書の標準特徴との類似度を特定する。
幾つかの実施例において、前記装置は、認識モジュールを更に備え、当該認識モジュールは、前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得し、前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得する。
本発明は、文書処理機器を更に提供する。図7は、当該機器の構造を示す。前記機器は、不揮発性記憶媒体701と、プロセッサ702とを備え、前記記憶媒体701は、プロセッサ702で運転され得るコンピュータ指令を記憶し、前記プロセッサ702は、前記コンピュータ指令を実行したときに本発明の何れかの実施例に記載の方法を実施する。
本発明は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施例に記載の方法は、実施される。
本発明の実施例では、既知の複数種別の文書を基に本実施例の分類方法を用いて処理すべき文書を分類するときに、これらの複数種別のうちの少なくとも1つのターゲット種別を参照として選定可能であるため、類似度を特定するステップの演算負荷と類似度を比較するステップの演算負荷とが低減され、分類の効率が向上する。
幾つかの実施例では、前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得することと、前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得することとを更に含む。
分類結果によって対応する標準テンプレートを自動的且つ正確に呼び出してレイアウト認識を行うため、レイアウト認識の正確性が向上するとともに、レイアウト認識の効率も向上する。
当業者であれば分かるように、本明細書の1つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本明細書の1つ又は複数の実施例は、100%ハードウェアの実施例、100%ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の1つ又は複数の実施例は、1つ又は複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリ等を含むが、それらに限定されない)で実施されるコンピュータプログラム製品の形式を採用してもよい。
本発明における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特に装置実施例が方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。
以上は、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、又は有利なものである。
本明細書に記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本明細書に開示された構造及びその構造の均等物を含むコンピュータハードウェア、又はそれらのうちの1つ又は複数の組み合わせにおいて実現され得る。本明細書に記述されたテーマの実施例は、1つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され又はデータ処理装置の操作を制御されるコンピュータプログラム指令における1つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリ機器、又はそれらのうちの1つ又は複数の組み合わせであってもよい。
本明細書に記述された処理及び論理フローは、1つ又は複数のコンピュータプログラムを実行する1つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)によって実行されてもよく、装置も専用論理回路として実現されてもよい。
コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び/又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び/又はランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための1つ又は複数のメモリ機器とを備える。通常、コンピュータは、更に、データを記憶するための1つ又は複数の大容量記憶機器、例えば、磁気ディスク、光磁気ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、2種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又は、例えばユニバーサルシリアルバス(USB)フラッシュメモリドライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。
コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリ機器を含み、例えば、半導体メモリ機器(例えば、EPROM、EEPROMとフラッシュメモリ機器)、磁気ディスク(例えば、内部ハードディスク又はリムーバブルディスク)、光磁気ディスク及びCD-ROMとDVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。
本明細書が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる発明の範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の発明の具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの1つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。
類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行され又は順に実行され又は全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。
このように、テーマの特定の実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。
本願は、2020年6月29日に提出された、出願番号が202010610080.8であって発明名称が「文書処理方法、装置、機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。

Claims (21)

  1. 処理すべき文書の意味的特徴及び視覚的特徴を取得するステップと、
    前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップと、
    前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するステップと、を含むことを特徴とする文書処理方法。
  2. 前記処理すべき文書の意味的特徴を取得することは、
    前記処理すべき文書のテキスト認識結果を取得することと、
    前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得することと、を含むことを特徴とする請求項1に記載の文書処理方法。
  3. 前記処理すべき文書のテキスト認識結果を取得することは、
    前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、
    各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、
    前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含むことを特徴とする請求項2に記載の文書処理方法。
  4. 前記視覚的特徴及び前記意味的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップは、
    前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行うことと、
    正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得することと、を含むことを特徴とする請求項1に記載の文書処理方法。
  5. 前記文書処理方法は、ニューラルネットワークを介して実行され、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第1分類サブネットワークとを含み、
    前記第1分類サブネットワークは、
    前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定し、
    取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定することを特徴とする請求項1から4の何れか一項に記載の文書処理方法。
  6. 取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定することは、
    前記少なくとも1つの類似度のうちの最高類似度を取得することと、
    前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定することと、を含むことを特徴とする請求項5に記載の文書処理方法。
  7. 前記文書処理方法は、前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングするステップを更に含み、
    当該トレーニングするステップは、
    種別がラベリングされたサンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得することと、
    前記汎用特徴を第2分類サブネットワークに入力し、前記サンプル文書の予測種別を取得することと、
    前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項5又は6に記載の文書処理方法。
  8. 前記少なくとも1種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも1種の文書に対して特徴抽出を行って取得されたものであることを特徴とする請求項7に記載の文書処理方法。
  9. 前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定するステップを更に含むことを特徴とする請求項6から8の何れか一項に記載の文書処理方法。
  10. 前記文書処理方法は、
    選択指令に応答し、所定の文書種別から少なくとも1つの種別をターゲット種別として選択するステップを更に含み、
    前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定することは、
    前記処理すべき文書の汎用特徴と所定の少なくとも1つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1つのターゲット種別の文書の標準特徴との類似度を特定することを含むことを特徴とする請求項5から9の何れか一項に記載の文書処理方法。
  11. 前記文書処理方法は、
    前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得するステップと、
    前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得するステップと、を更に含むことを特徴とする請求項1から10の何れか一項に記載の文書処理方法。
  12. 処理すべき文書の意味的特徴及び視覚的特徴を取得するための取得モジュールと、
    前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するための汎用モジュールと、
    前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するための分類モジュールと、を備えることを特徴とする文書処理装置。
  13. 前記取得モジュールは、
    前記処理すべき文書のテキスト認識結果を取得し、
    前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得することを特徴とする請求項12に記載の文書処理装置。
  14. 前記処理すべき文書のテキスト認識結果を取得することは、
    前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、
    各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、
    前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含むことを特徴とする請求項13に記載の文書処理装置。
  15. 前記汎用モジュールは、
    前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行い、
    正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得することを特徴とする請求項12に記載の文書処理装置。
  16. 前記文書処理装置は、ニューラルネットワークを含み、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第1分類サブネットワークとを含み、
    前記第1分類サブネットワークは、
    前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定し、
    取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定することを特徴とする請求項12から15の何れか一項に記載の文書処理装置。
  17. 前記第1分類サブネットワークは、取得された少なくとも1つの類似度に基づいて前記処理すべき文書の種別を特定する際に、
    前記少なくとも1つの類似度のうちの最高類似度を取得し、
    前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定し、又は、
    前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定することを特徴とする請求項16に記載の文書処理装置。
  18. 前記文書処理装置は、選択指令に応答し、所定の文書種別から少なくとも1つの種別をターゲット種別として選択するためのターゲットモジュールを更に備え、
    前記第1分類サブネットワークは、前記処理すべき文書の汎用特徴と所定の少なくとも1種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1種の文書の標準特徴との類似度を特定する際に、
    前記処理すべき文書の汎用特徴と所定の少なくとも1つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも1つのターゲット種別の文書の標準特徴との類似度を特定することを特徴とする請求項16又は17に記載の文書処理装置。
  19. 文書処理機器であって、
    非一時的な記憶媒体と、プロセッサとを備え、
    前記記憶媒体は、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに請求項1から11の何れか一項に記載の文書処理方法を実施することを特徴とする文書処理機器。
  20. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサによって実行されたときに、請求項1から11の何れか一項に記載の文書処理方法は、実施されることを特徴とするコンピュータ可読記憶媒体。
  21. コンピュータプログラムであって、
    前記プログラムがプロセッサによって実行されたときに、請求項1から11の何れか一項に記載の文書処理方法は、実施されることを特徴とするコンピュータプログラム。
JP2022506431A 2020-06-29 2021-06-11 文書処理方法、文書処理装置、文書処理機器、コンピュータ可読記憶媒体及びコンピュータプログラム Pending JP2022543052A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010610080.8 2020-06-29
CN202010610080.8A CN111782808A (zh) 2020-06-29 2020-06-29 文档处理方法、装置、设备及计算机可读存储介质
PCT/CN2021/099799 WO2022001637A1 (zh) 2020-06-29 2021-06-11 文档处理方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
JP2022543052A true JP2022543052A (ja) 2022-10-07

Family

ID=72760274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022506431A Pending JP2022543052A (ja) 2020-06-29 2021-06-11 文書処理方法、文書処理装置、文書処理機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (4)

Country Link
JP (1) JP2022543052A (ja)
KR (1) KR20220031097A (ja)
CN (1) CN111782808A (ja)
WO (1) WO2022001637A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质
CN112612911A (zh) * 2020-12-30 2021-04-06 华为技术有限公司 一种图像处理方法、***、设备及介质、程序产品
CN112861757B (zh) * 2021-02-23 2022-11-22 天津汇智星源信息技术有限公司 基于文本语义理解的笔录智能审核方法及电子设备
CN113051396B (zh) * 2021-03-08 2023-11-17 北京百度网讯科技有限公司 文档的分类识别方法、装置和电子设备
CN113297951A (zh) * 2021-05-20 2021-08-24 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质
CN113742483A (zh) * 2021-08-27 2021-12-03 北京百度网讯科技有限公司 文档分类的方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285190A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 帳票識別方法および帳票識別装置および記憶媒体
JP2015111467A (ja) * 2015-03-12 2015-06-18 株式会社東芝 手書き文字検索装置、方法及びプログラム
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
WO2020113468A1 (en) * 2018-12-05 2020-06-11 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for grounding a target video clip in a video

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354009B2 (en) * 2016-08-24 2019-07-16 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text
US10936970B2 (en) * 2017-08-31 2021-03-02 Accenture Global Solutions Limited Machine learning document processing
CN110390094B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
CN109033478B (zh) * 2018-09-12 2022-08-19 重庆工业职业技术学院 一种用于搜索引擎的文本信息规律分析方法与***
CN109344815B (zh) * 2018-12-13 2021-08-13 深源恒际科技有限公司 一种文档图像分类方法
CN110008944B (zh) * 2019-02-20 2024-02-13 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN110866116A (zh) * 2019-10-25 2020-03-06 远光软件股份有限公司 政策文档的处理方法、装置、存储介质及电子设备
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285190A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 帳票識別方法および帳票識別装置および記憶媒体
JP2015111467A (ja) * 2015-03-12 2015-06-18 株式会社東芝 手書き文字検索装置、方法及びプログラム
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
WO2020113468A1 (en) * 2018-12-05 2020-06-11 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for grounding a target video clip in a video
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置

Also Published As

Publication number Publication date
CN111782808A (zh) 2020-10-16
KR20220031097A (ko) 2022-03-11
WO2022001637A1 (zh) 2022-01-06

Similar Documents

Publication Publication Date Title
JP2022543052A (ja) 文書処理方法、文書処理装置、文書処理機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN107209860B (zh) 用于处理弱监督图像的方法、***和计算机存储介质
CN107209861B (zh) 使用否定数据优化多类别多媒体数据分类
US10558885B2 (en) Determination method and recording medium
Kalsum et al. Emotion recognition from facial expressions using hybrid feature descriptors
US9864928B2 (en) Compact and robust signature for large scale visual search, retrieval and classification
Kouw et al. Feature-level domain adaptation
Oliveira et al. Automatic graphic logo detection via fast region-based convolutional networks
US8606022B2 (en) Information processing apparatus, method and program
US20200065573A1 (en) Generating variations of a known shred
Gao et al. The labeled multiple canonical correlation analysis for information fusion
CN105631466B (zh) 图像分类的方法及装置
US20170076152A1 (en) Determining a text string based on visual features of a shred
CN111324874B (zh) 一种证件真伪识别方法及装置
US9569698B2 (en) Method of classifying a multimodal object
Sharma et al. Multimodal classification using feature level fusion and SVM
Duan Characters recognition of binary image using KNN
Barbosa et al. Automatic voice recognition system based on multiple Support Vector Machines and mel-frequency cepstral coefficients
CN112380369B (zh) 图像检索模型的训练方法、装置、设备和存储介质
Lahrache et al. Bag‐of‐features for image memorability evaluation
Kim et al. An improved license plate recognition technique in outdoor image
CN113297951A (zh) 文档处理方法、装置、设备及计算机可读存储介质
CN110852206A (zh) 一种联合全局特征和局部特征的场景识别方法及装置
US20140119641A1 (en) Character recognition apparatus, character recognition method, and computer-readable medium
Boudraa et al. Contribution to historical manuscript dating: A hybrid approach employing hand-crafted features with vision transformers

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230613