JP2022543052A

JP2022543052A - 文書処理方法、文書処理装置、文書処理機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022543052A
Application number: JP2022506431A
Authority: JP
Inventors: 明捷 ▲セン▼; 厳許; 鼎梁; 学博劉
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-06-29
Filing date: 2021-06-11
Publication date: 2022-10-07
Also published as: CN111782808A; KR20220031097A; WO2022001637A1

Abstract

本発明は、文書処理方法、装置、機器及びコンピュータ可読記憶媒体を提供する。前記文書処理方法は、処理すべき文書の意味的特徴及び視覚的特徴を取得するステップと、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップと、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するステップと、を含む。【選択図】図１

Description

本発明は、コンピュータビジョン技術に関し、特に文書処理方法、装置、機器及びコンピュータ可読記憶媒体に関する。

現在では、通常、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字認識）技術を用いて文書に対して認識を行う。当該技術認識を利用するときに、文書の種別を正確に取得して対応するテンプレートを用いる必要があるが、関連技術における文書の分類結果は、正確ではなかった。

したがって、如何にして文書を正確に分類するかは、早急に解決すべき問題となっている。

本発明の実施例は、文書分類の解決策を提供する。

本発明の一態様は、文書処理方法を提供する。前記文書処理方法は、処理すべき文書の意味的特徴及び視覚的特徴を取得するステップと、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップと、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するステップと、を含む。

本発明に係る何れかの実施形態を参照すると、前記処理すべき文書の意味的特徴を取得することは、前記処理すべき文書のテキスト認識結果を取得することと、前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得することと、を含む。

本発明に係る何れかの実施形態を参照すると、前記処理すべき文書のテキスト認識結果を取得することは、前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含む。

本発明に係る何れかの実施形態を参照すると、前記視覚的特徴及び前記意味的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップは、前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行うことと、正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得することと、を含む。

本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、ニューラルネットワークを介して実行され、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第１分類サブネットワークとを含み、前記第１分類サブネットワークは、前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定し、取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定する。

本発明に係る何れかの実施形態を参照すると、取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定することは、前記少なくとも１つの類似度のうちの最高類似度を取得することと、前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定することと、を含む。

本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングするステップを更に含み、当該トレーニングするステップは、種別がラベリングされたサンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得することと、前記汎用特徴を第２分類サブネットワークに入力し、前記サンプル文書の予測種別を取得することと、前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整することと、を含む。

本発明に係る何れかの実施形態を参照すると、前記少なくとも１種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも１種の文書に対して特徴抽出を行って取得されたものである。

本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定するステップを更に含む。

本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、選択指令に応答し、所定の文書種別から少なくとも１つの種別をターゲット種別として選択するステップを更に含み、前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定することは、前記処理すべき文書の汎用特徴と所定の少なくとも１つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１つのターゲット種別の文書の標準特徴との類似度を特定することを含む。

本発明に係る何れかの実施形態を参照すると、前記文書処理方法は、前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得するステップと、前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得するステップと、を更に含む。

本発明の一態様は、文書処理装置を提供する。前記文書処理装置は、処理すべき文書の意味的特徴及び視覚的特徴を取得するための取得モジュールと、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するための汎用モジュールと、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するための分類モジュールと、を備える。

本発明の一態様は、文書処理機器を提供する。前記文書処理機器は、不揮発性記憶媒体と、プロセッサとを備え、前記記憶媒体は、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、本発明の何れかの実施形態に記載の文書処理方法を実施する。

本発明の一態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施形態に記載の文書処理方法は、実施される。

本発明の一態様は、コンピュータプログラムを提供する。前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施形態に記載の文書処理方法は、実施される。

本発明の１つ又は複数の実施例の文書処理方法、装置、機器、コンピュータ可読媒体及びコンピュータプログラムでは、取得された文書の視覚的特徴及び意味的特徴に基づいて文書の汎用特徴を特定し、汎用特徴に基づいて文書の種別を特定する。本発明の文書処理方法では、任意の文書に対する正確な分類を実現可能であり、意味的特徴と視覚的特徴とを組み合わせて文書の汎用特徴を取得することにより、視覚的特徴が類似する異なる種別の文書の分類結果の正確性を向上させるとともに、文書分類のロバスト性も向上させる。

上述した一般的な記述と後文の詳細記述が単に例示的なものと解釈的なものであり、本発明を制限することができないことは、理解されるべきである。

ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本明細書に合致する実施例を示しつつ、明細書の記載とともに本発明の解決手段を解釈するために用いられる。
本発明の実施例に示す文書処理方法のフローチャートである。本発明の実施例に係る視覚的特徴を抽出するためのニューラルネットワークの局所ネットワーク構造を模式的に示す。本発明の実施例に係る意味的特徴を抽出するためのニューラルネットワークの局所ネットワーク構造を模式的に示す。本発明の実施例に示すフォームのテキスト認識過程の模式図である。本発明の実施例に示すユーザ選択インターフェースの模式図である。本発明実施例に示す文書処理装置の模式図である。本発明の実施例に示す文書処理機器の構造模式図である。

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「１種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び／又は」が、１つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。

理解すべきことは、本発明において第１、第２、第３等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第１情報が第２情報と呼称されてもよく、類似的に、第２情報が第１情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。

現在では、通常、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学的文字認識）技術を用いて文書に対して認識を行う。当該技術認識を利用するときに、文書の種別を正確に取得して対応するテンプレートを用いる必要があるが、関連技術における文書の分類結果は、正確ではない。

これに鑑みて、本発明の少なくとも１つの実施例は、文書処理方法を提供する。図１は、当該文書処理方法のフローを示し、ステップＳ１０１～ステップＳ１０３を含む。

前記文書（ドキュメント）は、書籍、書類、フォーム、手形、証明書及び非接触ＩＣカード等のうちの１つ又は複数を含んでもよく、具体的に、例えば汎用文字、身分証明書、銀行カード、車検証、運転免許証、パスポート、フォーム、領収書、営業許可証及び手書き書類等であってもよい。当該文書処理方法によって上記文書の種別を自動的に認識可能であり、例えば、１枚の銀行カードを銀行カード種別として自動的に認識し、又は１枚の身分証明書を身分証明書種別として自動的に認識し、又は１枚の領収書を領収書種別として自動的に認識可能である。説明すべきことは、実現過程において、処理すべき文書が１つ又は複数あってもよい。つまり、ユーザは、自身の需要に応じて、処理すべき文書について一括処理か単件処理かを選択してもよい。実現過程において、一括処理における各処理すべき文書の処理手順は、単件処理すべき文書の処理手順と類似するため、単件処理すべき文書の処理手順を参照すればよい。本願において、記述の便宜上、処理すべき文書が単件であることを例として説明するが、本願技術案に対する限定とならない。

ステップＳ１０１では、処理すべき文書の意味的特徴及び視覚的特徴を取得する。

本ステップでは、意味的特徴の取得と視覚的特徴の取得との前後順について具体的に制限する意図がない。つまり、意味的特徴を取得してから視覚的特徴を取得してもよく、視覚的特徴を取得してから意味的特徴を取得してもよく、又は意味的特徴と視覚的特徴とを同時に取得してもよい。

本ステップでは、ニューラルネットワークを介して処理すべき文書の視覚的特徴を抽出してもよい。具体的に、まず、畳み込みカーネル（例えば３×３の畳み込みカーネル）を介して処理すべき文書の初期特徴を抽出し、次に、初期特徴を複数の（例えば７個）逆方向残差ブロックを通過させて中間特徴を順次抽出し、最後１つの逆方向残差ブロックから出力された中間特徴を１つの畳み込みカーネル（例えば１×１の畳み込みカーネル）を通過させて畳み込みさせることにより、指定次元の特徴を処理すべき文書の視覚的特徴として出力する。各逆方向残差ブロックは、何れも、１つの１×１の畳み込みカーネルと活性化関数（例えばＲｅｌｕ６）とからなる上昇チャンネルモジュール（入力された特徴のチャンネル数を拡張するために用いられる）、１つの深さ分割可能な畳み込み層（Ｄｅｐｔｈｗｉｓｅｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）と活性化関数とからなる抽出モジュール（各チャンネルの特徴を抽出し、各チャンネルの特徴を接続するために用いられる）、及び、１つの１×１の畳み込みカーネルからなる降下チャンネルモジュール（入力された特徴のチャンネル数を元に戻すために用いられる）を含む。各逆方向残差ブロックは、何れも、その入力を降下チャンネルモジュールの出力と加算して逆方向残差ブロックの出力とする。最後１つの逆方向残差ブロック以外の各逆方向残差ブロックの出力は、何れも次の逆方向残差ブロックの入力とする。

１つの例示において、図２は、処理すべき文書の視覚的特徴を抽出するためのネットワーク構造の一部を模式的に示す。図２に示す局所ネットワーク構造は、２つの逆方向残差ブロック、即ち、第１逆方向残差ブロック２０１及び第２逆方向残差ブロック２０２を含む。第１逆方向残差ブロック２０１は、順次接続される第１上昇チャンネルモジュール２０１１、第１抽出モジュール２０１２、第１降下チャンネルモジュール２０１３を備える。第１上昇チャンネルモジュール２０１１は、例えば、１つの１×１の畳み込みカーネル（Ｃｏｎｖ１×１）と活性化関数（例えばＲｅｌｕ６）によって構成されてもよく、第１抽出モジュール２０１２は、例えば、深さ分割可能な３×３畳み込み層（Ｄｗｉｓｅ３×３）と活性化関数（例えばＲｅｌｕ６）によって構成されてもよく、第１降下チャンネルモジュール２０１３は、例えば、１つの１×１の畳み込みカーネル（Ｃｏｎｖ１×１）によって構成されてもよい。第１逆方向残差ブロック２０１の第１入力は、処理すべき文書の初期特徴であり、例えば、３×３の畳み込みカーネルを用いて抽出して得られてもよい。第１逆方向残差ブロック２０１の第１出力は、第１入力と第１降下チャンネルモジュールの出力との和であり、且つ第１出力は、第２逆方向残差ブロック２０２の第２入力である。第２逆方向残差ブロック２０２は、順次接続される第２上昇チャンネルモジュール２０２１、第２抽出モジュール２０２２、第２降下チャンネルモジュール２０２３を備える。第２上昇チャンネルモジュール２０２１は、例えば、１つの１×１の畳み込みカーネル（Ｃｏｎｖ１×１）と活性化関数（例えば、Ｒｅｌｕ６）によって構成されてもよく、第２抽出モジュール２０２２は、例えば、深さ分割可能な畳み込み層（Ｄｗｉｓｅ３×３）と活性化関数（例えばＲｅｌｕ６）によって構成されてもよく、第２降下チャンネルモジュールは、例えば、１つの１×１の畳み込みカーネル（Ｃｏｎｖ１×１）によって構成されてもよい。第２逆方向残差ブロック２０２の第２出力は、第２入力と第２降下チャンネルモジュールの出力との和である。

本ステップでは、下記の方式によって処理すべき文書の意味的特徴を取得してもよい。まず、前記処理すべき文書のテキスト認識結果を取得し、次に、前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得する。

テキスト認識結果は、処理すべき文書におけるテキスト内容を抽出して特定の方式によって示す結果であってもよい。１つの例示において、ＯＣＲ技術を用いて処理すべき文書のテキスト認識結果を取得してもよい。

ニューラルネットワークを介してテキスト認識結果の意味的特徴を抽出してもよい。具体的に、テキスト認識結果の異なる階層の特徴を抽出してから、上記異なる階層の特徴に対して接続及び抽出を行い、最後にテキスト認識結果の意味的特徴を取得してもよい。

図３を参照すると、１つの例示において、まず、少なくとも１つの第３抽出モジュール３０１を介してテキスト認識結果の中間特徴を取得する。各第３抽出モジュール３０１は、受容野が異なる畳み込みカーネルであってもよい。例えば、受容野が１である畳み込みカーネル、受容野が３である畳み込みカーネル、及び受容野が５である畳み込みカーネルを用いて、テキスト認識結果の３つの異なる階層の特徴（例えば、畳み込み及び／又はプーリング等の操作によって）を抽出してから、３つの異なる階層の特徴を接続することで中間特徴を取得してもよい。そして、第４抽出モジュール３０２（例えば、１×１の畳み込みカーネル)を介して中間特徴に対して更なる特徴抽出（例えば、畳み込み及び／又はプーリング等の操作によって）を行うことでテキスト認識結果の意味的特徴を取得してもよい。

上記図３に対応する特徴抽出過程は、意味的特徴の抽出の１つの例示に過ぎず、テキスト認識結果の意味的特徴を抽出する方式に対する具体的な限定ではない。より多く若しくはより少ない畳み込みカーネル、及び他の受容野の組み合わせを用いて、異なる階層の特徴を抽出してもよい。

処理すべき文書の意味的特徴は、視覚的特徴が類似するがテキスト内容が異なる複数種の文書を区分することができる。その一方、上記複数種の文書がちょうど関連技術において正確に分類されない場合の１つであり、本実施例では、意味的特徴を追加することにより、関連技術におけるこの問題を解決する。

ステップＳ１０２では、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定する。

ステップＳ１０１において視覚的特徴の抽出及び意味的特徴の抽出を実施するときに、２種の特徴のマージが容易にするように、次元が同じである視覚的特徴及び意味的特徴を出力してもよい。無論、本実施例では、ステップＳ１０１で抽出された視覚的特徴と意味的特徴との次元関係について制限する意図がない。

ステップＳ１０１において視覚的特徴の抽出及び意味的特徴の抽出を実施するときに、異なる次元の視覚的特徴及び意味的特徴を出力してもよい。このような場合に、２種の特徴の次元を比較してから、２種の特徴のうち次元の高い特徴について次元削減を行うことで２種の特徴の次元を同じにし、２種の特徴のマージを行ってもよい。次元削減方式は、例えば、線形次元削減及び非線形次元削減を採用してもよい。

１つの例示において、まず、前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行い、次に、正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得する。

他の方式によって処理すべき文書の汎用特徴を取得してもよい。例えば、視覚的特徴及び意味的特徴に対して正規化又は標準化を行った後、加重加算を行い、又は、ポイントごとにビット単位で加算する方式又はベクトル連結の方式を採用して意味的特徴及び視覚的特徴をマージすることにより、処理すべき文書の汎用特徴を取得等してもよい。

本発明の実施例において、処理すべき文書の意味的特徴及び視覚的特徴をマージすることにより、処理すべき文書の汎用特徴を取得することができる。処理すべき文書の汎用特徴は、ステップＳ１０３における文書分類に用いられてもよく、文書照合に用いられることで文書ピクチャとのマッチングを取ってもよい。

ステップＳ１０３では、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定する。

本発明の実施例では、取得された文書の視覚的特徴及び意味的特徴に基づいて文書の汎用特徴を特定し、汎用特徴に基づいて文書の種別を特定する。本発明の文書処理方法は、任意の文書に対する正確な分類を実現可能であり、意味的特徴と視覚的特徴とを組み合わせて文書の汎用特徴を取得することにより、視覚的特徴が類似する異なる種別の文書の分類結果の正確性を向上させるとともに、文書分類のロバスト性も向上させる。

幾つかの実施例において、以下の方式によって前記処理すべき文書のテキスト認識結果を取得してもよい。

まず、前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定する。

次に、各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得する。

最後に、前記単語分割処理結果に対応する特徴ベクトルを取得する。

図４は、１つの処理すべき文書（即ち、フォーム）のテキスト認識過程を示す。テキスト認識により、処理すべき文書におけるターゲットテキストボックス、即ち４０１～４１５という１５個のテキストボックス、及び各ターゲットテキストボックスに含まれるテキスト内容を特定する。例えば、テキストボックス４０１には、事務用品購入要求表が含まれ、テキストボックス４０２には、記入日時年月日が含まれ、テキストボックス４１５には、社長意見が含まれている。各テキストボックス内のテキスト内容に対して単語分割処理を行うことにより、複数の単語分割処理結果、例えば、４１６～４２６という１１個の単語分割処理結果を取得し、即ち、上記１５個のテキストボックス内のテキスト内容に対して単語分割処理を行って得られた一部の単語分割処理結果を取得する。単語分割処理結果は、単字又は単語を含んでもよく、例えば、単語分割処理結果４１６（事務）、４１７（用品）、４１８（購入要求）及び４１９（表）は、テキストボックス４０１中のテキスト内容に対して単語分割処理を行って得られた４個の単語分割処理結果であり、単語分割処理結果４２０（記入）、４２１（時間）、４２２（年）、４２３（月）及び４２４（日）は、テキストボックス４０２中のテキスト内容に対して単語分割処理を行って得られた５個の単語分割処理結果であり、単語分割処理結果４２５（社長）及び４２６（意見）は、テキストボックス４１５中のテキスト内容に対して単語分割処理を行って得られた２個の単語分割処理結果である。４２７～４３８は、１２個の特徴ベクトルであり、各特徴ベクトルは、何れも単語分割処理結果を特徴ベクトルで示した１つの結果である。

本発明の実施例では、文書におけるターゲットテキストボックス及びターゲットテキストボックス内のテキスト内容を特定し、テキスト内容について単語分割処理及び特徴ベクトル表示を行うことにより、テキスト認識結果を取得する。文書におけるテキスト内容（例えば、文書における一部又は全部のテキスト内容）が抽出されるだけでなく、テキストボックスの区分及び単語分割処理を経ると、テキストにおける最小の単字／単語単位を得ることができる。したがって、意味的特徴の特定が非常に正確になり、更に文書分類の正確性が向上し、また、テキスト認識結果が特徴ベクトル表示であり、意味的特徴の抽出が容易になり、更に文書分類の効率が向上する。

幾つかの実施例では、前記文書処理方法は、ニューラルネットワークを介して実行されてもよく、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第１分類サブネットワークとを含んでもよい。前記第１分類サブネットワークは、具体的に、前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との少なくとも１つの類似度を特定し、少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定してもよい。

処理すべき文書の汎用特徴と標準特徴との次元が同じであってもよい。このように、汎用特徴と標準特徴との比較は、容易になる。汎用特徴と標準特徴との類似度は、両者のユークリッド距離を算出することで取得されてもよく、又は、両者の類似度を出力可能な１つのニューラルネットワークを介して取得されてもよい。当該ニューラルネットワークは、トレーニングによって得られる。

本発明の実施例では、ニューラルネットワーク内に各種の文書の標準特徴が予め設定されている。処理すべき文書の汎用特徴と異なる標準特徴との類似度を用いて処理すべき文書の種別を特定する。処理すべき文書と各種の標準文書との関係、即ち、近似するか否か及び近似する度合いを類似度によって表すため、分類結果の正確性が向上するとともに、演算が簡単であり、分類効率が更に向上する。

幾つかの実施例において、少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定することは、具体的に以下の方式を採用する。

まず、前記少なくとも１つの類似度のうちの最高類似度を取得する。

次に、前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する前記標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定する。

各類似度を比較することで最高類似度を特定する。少なくとも２つの同じ最高類似度が現れたときに、類似度を算出するステップに戻って、より高い精度で類似度を再算出してから、再度算出結果を比較することにより、１つの最高類似度を取得してもよい。計算を１回又は複数回繰り返しても、依然として少なくとも２つの同じ最高類似度を含む場合に、１つのみの最高類似度が残るまで、引き続き算出を繰り返す。

説明すべきことは、実現過程において、類似度と所定の類似度閾値とを比較することで、値が類似度閾値以上である１つ又は複数の類似度を選別してから、選別された類似度から最高類似度を取得してもよい。これにより、唯一の最高類似度を特定する実現方式は、上記挙げられた２種の場合を含んでもよいが、それらに限定されない。実現過程において、同じ又は類似する効果を奏する他の実現方式を採用してもよく、ここで一々挙げない。

本実施例では、類似度閾値よりも高い類似度のみは、有効な類似度と見なされる。つまり、処理すべき文書の汎用特徴と標準特徴との類似度が類似度閾値以上である場合こそ、処理すべき文書と標準文書とが近似すると思われ、更に、類似度が類似度閾値よりも高いほど、処理すべき文書と標準文書間との近似度合いが高くなると思われ、処理すべき文書の汎用特徴と標準特徴との類似度が類似度閾値よりも低い場合、処理すべき文書と標準文書とが近似しないと思われる。

本発明の実施例では、ニューラルネットワーク内に類似度閾値が予め設定されている。最高類似度と類似度閾値とを比較し、最高類似度が類似度閾値よりも大きいときこそ、処理すべき文書を標準文書に対応する種別に分類する。これにより、処理すべき文書の汎用特徴と全ての標準特徴との類似度が何れも低いときに、即ち、処理すべき文書が何れの標準文書に対応する種別にも属さないときに分類エラーが発生することを回避する。更に分類の正確性が向上し、所定種別以外の文書が誤って分類される問題は、回避される。

幾つかの実施例において、下記の方式を用いて前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングする。

まず、サンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得する。ただし、前記サンプル文書に種別がラベリングされている。

次に、前記汎用特徴を第２分類サブネットワークに入力し、前記サンプル文書の予測種別を取得する。

最後に、前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整する。

前記特徴抽出サブネットワークのネットワーク構造は、当該特徴抽出サブネットワーク内に入力された文書の汎用特徴を抽出可能にし、特徴抽出サブネットワークのトレーニングは、その抽出特徴の正確性を向上させることを意図する。

第２分類サブネットワークは、１つの分類器であり、例えば、少なくとも１つの全接続層及び正規化層によって構成されてもよい。第２分類サブネットワーク分類の種別の数は、一定であり、サンプル文書の種別の数、例えば５個、８個又は１０個等に対応する。つまり、第２分類サブネットワークの出力は、各所定種別の確率であり、最も確率が高い１つの種別は、分類結果そのものである。例えば、サンプル文書は、合計で１０種あり、それぞれＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｈ、Ｉ、Ｊであり、第２分類サブネットワークの出力次元は、１０であり、それぞれ上記１０個の種別に対応する。特徴抽出サブネットワークから抽出された１つのサンプル文書の汎用特徴が第２分類サブネットワークに入力された後、第２分類サブネットワークは、１０個の確率を出力する。当該１０個の確率は、それぞれ８３％、２％、１％、３％、０．５％、０．２％、０．３％、５％、４％、１％である。上記１０個の確率は、当該サンプル文書がそれぞれＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｈ、Ｉ、Ｊ類である確率となるため、第２分類サブネットワークは、サンプル確率の予測種別をＡとして出力する。

ネットワーク損失値が所定損失値閾値よりも小さいときに、前記特徴抽出サブネットワークのネットワークパラメータに対する調整を停止し、及び／又は、調整回数が所定回数閾値を上回ったときに、前記特徴抽出サブネットワークのネットワークパラメータに対する調整を停止してもよい。

サンプル文書セットを予め用意してもよい。まず、複数のサンプル文書を取得し、次に、各前記サンプル文書の種別をそれぞれラベリングし、最後に、種別がラベリングされた複数のサンプル文書に基づいてサンプル文書セットを特定する。また、各種のサンプル文書から１つを当該類文書の標準テンプレートとして選択し、後続の標準特徴の記憶に備える。

本発明の実施例において、特徴抽出サブネットワークの抽出能力が、抽出された汎用特徴の正確性を決め、且つ汎用特徴の正確性が分類結果の正確性を決めるため、第２分類サブネットワークから出力された予測種別の正確性は、特徴抽出サブネットワークの抽出能力の強弱を表すことができる。第２分類サブネットワークを介して特徴抽出サブネットワークの抽出能力の表しを図り、更に特徴抽出サブネットワークのネットワークパラメータをフィードバックして調節し、ネットワークパラメータを最適化し続けることで特徴抽出サブネットワークの抽出能力を向上させ、更に抽出された汎用特徴の正確性及び文書分類の正確性を向上させる。

幾つかの実施例において、前記少なくとも１種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも１種の文書の標準テンプレートを処理して取得されたものである。

特徴抽出サブネットワークトは、レーニングを完了された後、それに入力された文書の汎用特徴を正確に抽出する能力を有する。各種の文書の標準テンプレートを先に特定してもよい。標準テンプレートは、レイアウトが鮮明であり、テキストボックス及び／又はテキストブロックの境界がはっきりしており、テキスト内容が完全である。各種の文書の標準テンプレートの汎用特徴を抽出した後、当該類文書の標準特徴として記憶する。更に標準テンプレートについてラベリングを行ってもよい。つまり、標準テンプレートの各位置、テキストボックス及び／又はテキストブロック等の属性についてラベリングを行ってもよい。これにより、当該標準テンプレートは、文書のレイアウト認識（ｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ）を行うために用いられることができる。

本発明の実施例において、標準テンプレート及び処理すべき文書の汎用文書が何れも特徴抽出サブネットワークを介して抽出されるため、汎用特徴と標準特徴が同源であり、規則標準が一致する。したがって、両者によって特定された類似度の正確性が高く、更に文書分類の正確性が向上する。

上記方式で記憶される標準特徴は、有限であり、全ての文書の種別をカバーすることができない。また、上記幾つかの実施例の紹介によると、最高類似度閾値が類似度閾値以上であるときのみ、処理すべき文書を最高類似度に対応する文書種別に分類することができる。上記２つの原因により、１つの文書の種別が所定の標準テンプレートでカバーされていないとき、分類を完了することができない。

したがって、幾つかの実施例において、以下の方式によって標準特徴を追加する。

前記最高類似度が所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定する。

最高類似度が類似度閾値よりも小さいことは、処理すべき文書が何れの所定の文書種別にも属さないことを意味する。つまり、当該処理すべき文書は、１つの新たな文書種別となる。分類に失敗したときに、分類が完了されなかった処理すべき文書を１つの新たな種別としてニューラルネットワークに記憶する。即ち、処理すべき文書を標準テンプレートとして記憶し、抽出された汎用特徴を当該新たな種別文書の標準特徴として記憶する。更に、当該種別が記憶された後、レイアウト認識に利用できるように、注意情報を生成することにより、ユーザに対して、当該種別の標準テンプレートについてラベリングを行うよう注意してもよい。

本発明の実施例において、特徴抽出サブネットワークが処理すべき文書の汎用特徴を正確に抽出可能であるため、第１分類サブネットワークは、分類次元又は数を自動的に拡張することができる。

本発明の実施例において、分類に失敗した処理すべき文書を１つの新たな種別として記憶して設定することにより、所定文書種別の数を自動的に拡張することができ、分類能力を向上させつつある。

幾つかの実施例において、選択指令に応答し、所定の文書種別から少なくとも１つの種別をターゲット種別として選択するステップを更に含む。前記選択指令は、ユーザの選択操作によってトリガされてもよく、トリガ条件を予め設定し且つトリガ条件を満たすときに自動的にトリガされてもよい。

下記の方式によって前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定する。つまり、前記処理すべき文書の汎用特徴と所定の少なくとも１つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１つのターゲット種別の文書の標準特徴との類似度を特定する。

１つの例示において、図５は、１つのユーザ選択インターフェースにおける一部の内容を示す。図から分かるように、所定の文書種別は、汎用文字、身分証明書、銀行カード、車検証、運転免許証、パスポート、汎用フォーム、付加価値税領収書、営業許可証及び手書き文字を含み、ユーザは、操作によって身分証明書、銀行カード、汎用フォーム、付加価値税領収書及び手書き文字をターゲット種別として選択する。そうすると、後続の認識すべき文書に基づいて処理を行う過程において、ユーザによって選定された複数の種別を参照とする。

説明すべきことは、図５に示す内容が１種の可能な実現方式に過ぎない。実際の応用中に、ユーザは、自らテンプレートを作成することで新たなターゲット種別を確立し、新たなターゲット種別を認識すべき文書の処理過程における参照としてもよい。また、ターゲット種別は、図５に示す複数種の種別のうちの少なくとも一部を含んでもよく、図５に示す場合よりも多くなってもよく、少なくなってもよい。ここで限定されない。

本発明は、文書処理装置を更に提供する。図６は、当該装置の構造を示す。前記装置は、処理すべき文書の意味的特徴及び視覚的特徴を取得するための取得モジュール６０１と、前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するための汎用モジュール６０２と、前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するための分類モジュール６０３と、を備える。

幾つかの実施例において、前記取得モジュールは、具体的に、前記処理すべき文書のテキスト認識結果を取得し、前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得する。

幾つかの実施例において、前記処理すべき文書のテキスト認識結果を取得することは、前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含む。

幾つかの実施例において、前記汎用モジュールは、具体的に、前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行い、正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得する。

幾つかの実施例において、前記文書処理装置は、ニューラルネットワークを含み、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第１分類サブネットワークとを含み、前記第１分類サブネットワークは、具体的に、前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定し、取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定する。

幾つかの実施例において、前記第１分類サブネットワークは、取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定する際に、具体的に、前記少なくとも１つの類似度のうちの最高類似度を取得し、前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定する。

幾つかの実施例において、前記装置は、前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングするためのトレーニングモジュールを更に備え、当該トレーニングモジュールは、種別がラベリングされたサンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得し、前記汎用特徴を第２分類サブネットワークに入力し、前記サンプル文書の予測種別を取得し、前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整する。

幾つかの実施例において、前記少なくとも１種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも１種の文書に対して特徴抽出を行って取得されたものである。

幾つかの実施例において、前記装置は、拡張モジュールを更に備え、当該拡張モジュールは、前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定する。

幾つかの実施例において、前記装置は、ターゲットモジュールを更に備え、当該ターゲットモジュールは、選択指令に応答し、所定の文書種別から少なくとも１つの種別をターゲット種別として選択し、前記第１分類サブネットワークは、前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定する際に、具体的に、前記処理すべき文書の汎用特徴と所定の少なくとも１つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１つのターゲット種別の文書の標準特徴との類似度を特定する。

幾つかの実施例において、前記装置は、認識モジュールを更に備え、当該認識モジュールは、前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得し、前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得する。

本発明は、文書処理機器を更に提供する。図７は、当該機器の構造を示す。前記機器は、不揮発性記憶媒体７０１と、プロセッサ７０２とを備え、前記記憶媒体７０１は、プロセッサ７０２で運転され得るコンピュータ指令を記憶し、前記プロセッサ７０２は、前記コンピュータ指令を実行したときに本発明の何れかの実施例に記載の方法を実施する。

本発明は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施例に記載の方法は、実施される。

本発明の実施例では、既知の複数種別の文書を基に本実施例の分類方法を用いて処理すべき文書を分類するときに、これらの複数種別のうちの少なくとも１つのターゲット種別を参照として選定可能であるため、類似度を特定するステップの演算負荷と類似度を比較するステップの演算負荷とが低減され、分類の効率が向上する。

幾つかの実施例では、前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得することと、前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得することとを更に含む。

分類結果によって対応する標準テンプレートを自動的且つ正確に呼び出してレイアウト認識を行うため、レイアウト認識の正確性が向上するとともに、レイアウト認識の効率も向上する。

当業者であれば分かるように、本明細書の１つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本明細書の１つ又は複数の実施例は、１００％ハードウェアの実施例、１００％ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の１つ又は複数の実施例は、１つ又は複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体（磁気ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリ等を含むが、それらに限定されない）で実施されるコンピュータプログラム製品の形式を採用してもよい。

本発明における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特に装置実施例が方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。

以上は、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、又は有利なものである。

本明細書に記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本明細書に開示された構造及びその構造の均等物を含むコンピュータハードウェア、又はそれらのうちの１つ又は複数の組み合わせにおいて実現され得る。本明細書に記述されたテーマの実施例は、１つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され又はデータ処理装置の操作を制御されるコンピュータプログラム指令における１つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリ機器、又はそれらのうちの１つ又は複数の組み合わせであってもよい。

本明細書に記述された処理及び論理フローは、１つ又は複数のコンピュータプログラムを実行する１つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）によって実行されてもよく、装置も専用論理回路として実現されてもよい。

コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び／又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び／又はランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための１つ又は複数のメモリ機器とを備える。通常、コンピュータは、更に、データを記憶するための１つ又は複数の大容量記憶機器、例えば、磁気ディスク、光磁気ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、２種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、又は、例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュメモリドライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。

コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリ機器を含み、例えば、半導体メモリ機器（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭとフラッシュメモリ機器）、磁気ディスク（例えば、内部ハードディスク又はリムーバブルディスク）、光磁気ディスク及びＣＤ－ＲＯＭとＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。

本明細書が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる発明の範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の発明の具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの１つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。

類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行され又は順に実行され又は全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。

このように、テーマの特定の実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。

本願は、２０２０年６月２９日に提出された、出願番号が２０２０１０６１００８０．８であって発明名称が「文書処理方法、装置、機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。

Claims

処理すべき文書の意味的特徴及び視覚的特徴を取得するステップと、
前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップと、
前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するステップと、を含むことを特徴とする文書処理方法。
前記処理すべき文書の意味的特徴を取得することは、
前記処理すべき文書のテキスト認識結果を取得することと、
前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得することと、を含むことを特徴とする請求項１に記載の文書処理方法。
前記処理すべき文書のテキスト認識結果を取得することは、
前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、
各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、
前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含むことを特徴とする請求項２に記載の文書処理方法。
前記視覚的特徴及び前記意味的特徴に基づいて前記処理すべき文書の汎用特徴を特定するステップは、
前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行うことと、
正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得することと、を含むことを特徴とする請求項１に記載の文書処理方法。
前記文書処理方法は、ニューラルネットワークを介して実行され、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第１分類サブネットワークとを含み、
前記第１分類サブネットワークは、
前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定し、
取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定することを特徴とする請求項１から４の何れか一項に記載の文書処理方法。
取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定することは、
前記少なくとも１つの類似度のうちの最高類似度を取得することと、
前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定することと、を含むことを特徴とする請求項５に記載の文書処理方法。
前記文書処理方法は、前記ニューラルネットワークのうちの特徴抽出サブネットワークをトレーニングするステップを更に含み、
当該トレーニングするステップは、
種別がラベリングされたサンプル文書を前記特徴抽出サブネットワークに入力し、前記サンプル文書の汎用特徴を取得することと、
前記汎用特徴を第２分類サブネットワークに入力し、前記サンプル文書の予測種別を取得することと、
前記サンプル文書の予測種別と前記サンプル文書のラベリング種別との差分に応じて、前記特徴抽出サブネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項５又は６に記載の文書処理方法。
前記少なくとも１種の文書の標準特徴は、トレーニング済みの特徴抽出サブネットワークを介して前記少なくとも１種の文書に対して特徴抽出を行って取得されたものであることを特徴とする請求項７に記載の文書処理方法。
前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定するステップを更に含むことを特徴とする請求項６から８の何れか一項に記載の文書処理方法。
前記文書処理方法は、
選択指令に応答し、所定の文書種別から少なくとも１つの種別をターゲット種別として選択するステップを更に含み、
前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定することは、
前記処理すべき文書の汎用特徴と所定の少なくとも１つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１つのターゲット種別の文書の標準特徴との類似度を特定することを含むことを特徴とする請求項５から９の何れか一項に記載の文書処理方法。
前記文書処理方法は、
前記処理すべき文書の種別に基づいて、対応する所定の標準テンプレートを取得するステップと、
前記標準テンプレートに基づいて、前記処理すべき文書に対してレイアウト認識処理を行い、文書のレイアウト認識結果を取得するステップと、を更に含むことを特徴とする請求項１から１０の何れか一項に記載の文書処理方法。
処理すべき文書の意味的特徴及び視覚的特徴を取得するための取得モジュールと、
前記意味的特徴及び前記視覚的特徴に基づいて前記処理すべき文書の汎用特徴を特定するための汎用モジュールと、
前記処理すべき文書の汎用特徴に基づいて前記処理すべき文書の種別を特定するための分類モジュールと、を備えることを特徴とする文書処理装置。
前記取得モジュールは、
前記処理すべき文書のテキスト認識結果を取得し、
前記テキスト認識結果に基づいて、前記処理すべき文書の意味的特徴を取得することを特徴とする請求項１２に記載の文書処理装置。
前記処理すべき文書のテキスト認識結果を取得することは、
前記処理すべき文書におけるターゲットテキストボックスと、前記ターゲットテキストボックスに含まれるテキスト内容とを特定することと、
各前記ターゲットテキストボックス内のテキスト内容の単語分割処理結果を取得することと、
前記単語分割処理結果に対応する特徴ベクトルを取得することと、を含むことを特徴とする請求項１３に記載の文書処理装置。
前記汎用モジュールは、
前記視覚的特徴及び前記意味的特徴のそれぞれに対して正則化処理を行い、
正則化処理後の前記視覚的特徴と正則化処理後の前記意味的特徴とに対して加重加算を行い、前記処理すべき文書の汎用特徴を取得することを特徴とする請求項１２に記載の文書処理装置。
前記文書処理装置は、ニューラルネットワークを含み、前記ニューラルネットワークは、前記処理すべき文書の汎用特徴を抽出するための特徴抽出サブネットワークと、前記汎用特徴に基づいて前記処理すべき文書の種別を特定するための第１分類サブネットワークとを含み、
前記第１分類サブネットワークは、
前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定し、
取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定することを特徴とする請求項１２から１５の何れか一項に記載の文書処理装置。
前記第１分類サブネットワークは、取得された少なくとも１つの類似度に基づいて前記処理すべき文書の種別を特定する際に、
前記少なくとも１つの類似度のうちの最高類似度を取得し、
前記最高類似度が所定の類似度閾値以上であることに応じて、前記最高類似度に対応する標準特徴の所属する文書の種別を前記処理すべき文書の種別として特定し、又は、
前記最高類似度が前記所定の類似度閾値よりも小さいことに応じて、前記処理すべき文書を標準テンプレートとして追加し、前記処理すべき文書の汎用特徴を、追加された標準テンプレートに対応する種別の標準特徴として特定することを特徴とする請求項１６に記載の文書処理装置。
前記文書処理装置は、選択指令に応答し、所定の文書種別から少なくとも１つの種別をターゲット種別として選択するためのターゲットモジュールを更に備え、
前記第１分類サブネットワークは、前記処理すべき文書の汎用特徴と所定の少なくとも１種の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１種の文書の標準特徴との類似度を特定する際に、
前記処理すべき文書の汎用特徴と所定の少なくとも１つのターゲット種別の文書の標準特徴とを比較し、前記処理すべき文書の汎用特徴と前記少なくとも１つのターゲット種別の文書の標準特徴との類似度を特定することを特徴とする請求項１６又は１７に記載の文書処理装置。
文書処理機器であって、
非一時的な記憶媒体と、プロセッサとを備え、
前記記憶媒体は、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに請求項１から１１の何れか一項に記載の文書処理方法を実施することを特徴とする文書処理機器。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されたときに、請求項１から１１の何れか一項に記載の文書処理方法は、実施されることを特徴とするコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記プログラムがプロセッサによって実行されたときに、請求項１から１１の何れか一項に記載の文書処理方法は、実施されることを特徴とするコンピュータプログラム。