JP7390442B2

JP7390442B2 - 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム

Info

Publication number: JP7390442B2
Application number: JP2022126270A
Authority: JP
Inventors: ペン，チミン; ルオ，ビン; ツァオ，ユフイ; フェン，シクン; チェン，ヨンフェン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-10
Filing date: 2022-08-08
Publication date: 2023-12-01
Anticipated expiration: 2042-08-08
Also published as: JP2022166126A; US20220382991A1; CN114661904B; CN114661904A

Description

本開示は人工知能分野における深層学習、自然言語処理、テキスト識別などの技術に関し、特に文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラムに関する。

人工知能はコンピュータを人間のある思考過程及びインテリジェント行為（例えば学習、推論、思考、計画など）をシミュレーションする学科を研究することであり、ハードウェア的な技術もソフトウェア的な技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、クラウド分布記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などの方向を含む。

人工知能は文書処理シーンにおいて多くの応用を取得する。例えば、予めトレーニングして得られたターゲットモデルによって文書を分析し、文書に情報抽出を行い、又は文書を分類するなどであってもよい。上記ターゲットモデルのトレーニング過程は一般的に予備トレーニング及びファインチューニングトレーニングの２つの段階を含む。具体的には、まずサンプル文書を利用して基礎モデルに予備トレーニングを行うことにより、予備トレーニングモデルを取得し、予備トレーニングモデルは文書に意味表現を行うために用いる。予備トレーニングが終了した後、具体的な文書処理タスクに対して、少量のサンプルデータを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、当該具体的な文書処理タスクに対応するターゲットモデルを取得する。

一般的に、上記予備トレーニング段階において、まずサンプル文書における文字情報を識別することができ、これらの文字情報を利用して基礎モデルを訓練し、予備トレーニングモデルを取得する。しかしながら、実際の応用において、上記予備トレーニングモデルは文書の意味表現の正確性が高くないことを発見する。

本開示は、文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラムを提供する。

本開示の第１の態様によれば、文書処理モデルのトレーニング方法が提供され、
第１のサンプル文書を取得するステップと、
前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定するステップであって、ここで、前記文書要素は前記第１のサンプル文書における文字又は文書領域に対応し、前記Ｍは１以上の整数であるステップと、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、前記文書処理モデルを取得するステップとを含む。

本開示の第２の態様によれば、文書処理モデルのトレーニング装置が提供され、
第１のサンプル文書を取得するための第１の取得モジュールと、
前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定するための決定モジュールであって、ここで、前記文書要素は前記第１のサンプル文書における文字又は文書領域に対応し、前記Ｍは１以上の整数である決定モジュールと、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、前記文書処理モデルを取得するための第１のトレーニングモジュールとを含む。

本開示の第３の態様によれば、電子装置が提供され、
少なくとも１つのプロセッサ、及び
前記少なくとも１つのプロセッサと通信可能に接続されたメモリを含み、ここで、
前記メモリには前記少なくとも１つのプロセッサにより実行できる命令が記憶され、前記命令は前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサは第１の態様に記載の方法を実行させることができる。

本開示の第４の態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ可読媒体が提供され、ここで、前記コンピュータ命令はコンピュータに第１の態様に記載の方法を実行させるために用いられる。

本開示の第５の態様によれば、コンピュータプログラムが提供され、前記コンピュータプログラムが可読記憶媒体に記憶され、電子機器の少なくとも１つのプロセッサが前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサが前記コンピュータプログラムを実行することにより電子機器が第１の態様に記載の方法を実行させる。

理解すべきものとして、本部分に記載の内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の明細書によりわかりやすくなる。

図面は本様態をよりよく理解するために用いられ、本開示を限定するものではない。ここで、
本開示の実施例に係る適用シーンの模式図である。本開示の実施例に係る文書処理モデルのトレーニング方法のフロー模式図である。本開示の実施例に係る文書要素の模式図である。本開示の実施例に係る他の文書要素の模式図である。本開示の実施例に係るサンプル文書の処理過程の模式図である。本開示の実施例に係る他のサンプル文書の処理過程の模式図である。本開示の実施例に係るさらに他の文書処理モデルのトレーニング方法のフロー模式図である。本開示の実施例に係る基礎モデルのデータ処理過程の模式図である。本開示の実施例に係るモデルトレーニング過程の模式図である。本開示の実施例に係る文書処理モデルのトレーニング装置の構造模式図である。本開示の実施例に係る電子機器の構造模式図である。

以下に図面を参照して本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含んで、理解することに役立ち、それらを例示的なものと考えるべきである。そこで、当業者であれば、ここで説明された実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造についての説明を省略する。

本開示が提供する技術案に対する理解を容易にするために、まず図１を参照して本開示の応用シーンを例として説明する。

図１は本開示の実施例に係る適用シーンの模式図である。図１には文書処理シーンのモデルトレーニング過程が例示される。図１を参照し、モデルトレーニング過程は２つの段階を含み、前記２つの段階はそれぞれ、予備トレーニング段階とファインチューニングトレーニング段階である。説明すべきものとして、上記２つの段階は同じトレーニング機器によって実行されてもよく、それぞれ異なるトレーニング機器によって実行されてもよい。トレーニング機器は一定の計算能力を有する電子機器であってもよく、端末機器、サーバなどを含むがそれらに限定されない。

図１を参照し、予備トレーニング段階において、サンプル文書データベースにおけるサンプル文書を利用して基礎モデルに予備トレーニングを行い、予備トレーニングモデルを取得する。予備トレーニングモデルは、文書を意味表現する能力を有する。上記予備トレーニング過程は一般的に具体的な文書処理タスクと無関係であり、主に予備トレーニングモデルに、文書を意味表現する能力に学習させる。

続いて図１を参照し、ファインチューニングトレーニング段階において、具体的な文書処理タスクに対して、当該タスクに対応する少量のサンプル文書データを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、当該タスクに対応するターゲットモデルを取得する。例えば、タスク１に対応する少量のサンプル文書データを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、タスク１に対応するターゲットモデルを取得する。タスク２に対応する少量のサンプル文書データを利用して予備トレーニングモデルにファインチューニングトレーニングを行い、タスク２に対応するターゲットモデルを取得する。すなわち、ファインチューニングトレーニング段階において、具体的な文書処理タスクを目標としてトレーニングを行うことにより、トレーニングして得られたターゲットモデルは当該文書処理タスクを完成する能力を有する。上記文書処理タスクは、文書分類タスク、文書分析タスク、文書から情報抽出を行うタスクなどを含むがそれらに限定されない。

本開示は文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラムを提供し、人工知能分野における深層学習、自然言語処理、テキスト識別などの技術に応用され、モデル予備トレーニング段階に用いることができ、それにより予備トレーニングモデルの文書意味表現の正確性を向上させる。

本開示が提供する技術案において、予備トレーニング過程は以下のとおりである。第１のサンプル文書を取得する。第１のサンプル文書に基づいて、第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定し、ここで、文書要素は第１のサンプル文書における文字又は文書領域に対応し、Ｍは１以上の整数である。上述した複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、予備トレーニングモデルを取得する。

上述した基礎モデルに予備トレーニングを行う過程において、複数の文書要素の要素特徴だけでなく、各文書要素のＭ種類の位置タイプに対応する位置を利用し、さらに各文書要素の間の相互関係を考慮し、すなわち、考慮された情報がより全面的であり、したがって、予備トレーニングモデルの文書意味表現の正確性を向上させることができる。また、上述した各文書要素は第１のサンプル文書における文字又は文書領域に対応することができ、すなわち、本開示は文字の次元から文書を分析することができるだけでなく、文書領域の次元から文書を分析することができる。したがって、予備トレーニングモデルの文書意味表現の正確性をさらに向上させることができる。

以下にいくつかの具体的な実施例を参照して本開示が提供する技術案を詳細に説明する。以下のいくつかの実施例を互いに組み合わせることができる。同じ又は類似する概念又はプロセスに対していくつかの実施例では説明を省略する可能性がある。

図２は本開示の実施例に係る文書処理モデルのトレーニング方法のフロー模式図である。本実施例の方法は、図１における予備トレーニング段階に適用することができる。図２に示すように、本実施例に係る方法は以下のステップを含む。

Ｓ２０１、第１のサンプル文書を取得する。

例示的には、第１のサンプル文書は図１におけるサンプル文書データベースにおけるサンプル文書であってもよい。第１のサンプル文書は．ｄｏｃ、．ｅｘｃｅｌ、．ｐｐｔ、．ｐｄｆ、．ｍｄ、．ｈｔｍｌ、．ｔｘｔ、．ｊｐｇ、．ｐｎｇなどの文書タイプのうちのいずれか１種類であってもよいがそれらに限定されるものではない。

本開示の実施例において、第１のサンプル文書には文字、図面、テーブルなどのうちの少なくとも１種類を含んでもよい。ここで、文字は中国語文字、英語文字、又は他の任意の言語の文字であってもよい。

Ｓ２０２、前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定し、ここで、前記文書要素は前記第１のサンプル文書における文字又は文書領域に対応し、前記Ｍは１以上の整数である。

ここで、文書要素とは、第１のサンプル文書を構成するオブジェクトである。１つの文書要素は、第１のサンプル文書における文字又は文書領域に対応することができる。

１つの例として、図３Ａは本開示の実施例に係る文書要素の模式図である。図３Ａに示すように、第１のサンプル文書における各文字（例えば文字３０１、文字３０２、文字３０３、文字３０４など）はいずれも１つの文書要素とすることができる。

１つの例として、図３Ｂは本開示の実施例に係る他の文書要素の模式図である。図３Ｂに示すように、第１のサンプル文書はそれぞれ文書領域３０５、文書領域３０６、文書領域３０７及び文書領域３０８を含む４つの文書領域に分けられる。上述した各文書領域はいずれも１つの文書要素とすることができる。理解すべきものとして、本開示の実施例が文書領域の分割方式、及び分割して得られた文書領域の数を限定せず、図３Ｂに示すのは一例に過ぎない。

本開示の実施例において、第１のサンプル文書における各文字、及び各文書領域をいずれも１つの文書要素とすることができる。すなわち、第１のサンプル文書にはＫ１個の文字が含まれ、かつ、第１のサンプル文書がＫ２個の文書領域に分割されると仮定すると、第１のサンプル文書におけるＫ１個の文字、及びＫ２個の文書領域はいずれも文書要素とする。このようにして、第１のサンプル文書においてＫ１＋Ｋ２個の文書要素を決定することができる。

各文書要素の要素特徴は、当該文書要素の意味情報を説明するために用いられる。例示的には、第１の文書における複数の文書要素を決定した後、各文書要素に意味表現を行い、当該文書要素の要素特徴を決定してもよい。

一般的に、文書要素の位置を説明するときに、様々な方式を採用して説明することができる。例示的に、１つの可能な方式において、各文書要素の識別子（ｉｎｄｅｘ又はＩＤ）を採用して文書要素の位置を説明してもよい。図３Ａに示すように、文書要素３０１の位置は１、文書要素３０２の位置は２、文書要素３０３の位置は３、文書要素３０４の位置は４などである。他の１つの可能な方式において、座標情報（ｘ，ｙ，ｈ，ｗ）を採用して文書要素の位置を説明してもよい。ここで、（ｘ，ｙ）は文書要素の左上頂点の座標を表し、ｈは文書要素の高さを表し、ｗは文書要素の幅を表す。

本開示の実施例において、文書の意味が文書における各文書要素に関連するだけでなく、各文書要素の間の位置に関連することを考慮する。したがって、文書に意味表現をよりよく行うために、第１のサンプル文書における複数の文書要素を決定した後、さらに各文書要素の位置を決定してもよい。

１つの実施形態において、各文書要素の位置は各文書要素のある基準オブジェクトに対する相対位置であってもよい。例示的には、第１のサンプル文書における最初の文書要素を基準オブジェクトとして、各文書要素の最初の文書要素に対する相対位置をそれぞれ決定してもよい。

さらに、本開示の実施例において、文書要素の位置を決定するときに、Ｍ種類の位置タイプに対応する位置を決定してもよい。すなわち、それぞれＭ種類の位置タイプを採用して文書要素の位置を表現する。１つの実施形態において、前記Ｍ種類の位置タイプは１次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの１つの種類又は複数の種類を含む。

ここで、文書要素の１次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられる。

例えば、図３Ａを参照して例を挙げて説明し、文書要素３０１の１次元位置タイプに対応する位置を０として表現することができ、文書要素３０２の１次元位置タイプに対応する位置を１として表現することができ、文書要素３０３の１次元位置タイプに対応する位置を２として表現することができ、文書要素３０４の１次元位置タイプに対応する位置を３として表現することができる。

文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第１のプリセット基準座標との間のずれ量を指示するために用いられる。ここで、第１のプリセット基準座標はプリセット基準オブジェクトの文書幅方向での座標であってもよい。

文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第２のプリセット基準座標との間のずれ量を指示するために用いられる。ここで、第２のプリセット基準座標はプリセット基準オブジェクトの文書高さ方向での座標であってもよい。

例えば、文書要素３０１の座標情報は（ｘ１，ｙ１，ｈ，ｗ）であり、文書要素３０２の座標情報が（ｘ２，ｙ２，ｈ，ｗ）であり、文書要素３０３の座標情報が（ｘ３，ｙ３，ｈ，ｗ）であり、文書要素３０４の座標情報は（ｘ４，ｙ４，ｈ，ｗ）であると仮定し、文書要素３０１をプリセット基準オブジェクトとすると、
文書高さ方向位置タイプについて、
文書要素３０１の位置を０（ｙ１－ｙ１＝０）と表現してもよい。
文書要素３０２の位置をｙ２－ｙ１と表現してもよい。
文書要素３０３の位置をｙ３－ｙ１と表現してもよい。
文書要素３０４の位置をｙ４－ｙ１と表現してもよい。

文書幅方向位置タイプについて、
文書要素３０１の位置を０（ｘ１－ｘ１＝０）と表現してもよい。
文書要素３０２の位置をｘ２－ｘ１と表現してもよい。
文書要素３０３の位置をｘ３－ｘ１と表現してもよい。
文書要素３０４の位置をｘ４－ｘ１と表現してもよい。

いくつかの可能な実現方式において、さらにプリセットルックアップテーブル方式を採用し、文書要素の様々な位置タイプに対応する位置をベクトル形式に変換することができる。

Ｓ２０３、前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、文書処理モデルを取得する。

ここで、基礎モデルはトレーニングしようとするモデルであり、又は空モデルと呼ばれる。説明すべきものとして、本実施例は基礎モデルのネットワーク構造に対して限定しない。例示的には、基礎モデルはＴｒａｎｓｆｏｒｍｅｒモデルであってもよい。

本実施例において、複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングすることにより、基礎モデルに学習を継続させて文書意味と各文書要素の要素特徴、各文書要素の位置との間の関係を取得させる。すなわち、トレーニングによって基礎モデルに、文書を意味表現する能力を有させる。

理解すべきものとして、図２に示す実施例は１つのサンプル文書を利用して基礎モデルをトレーニングする過程を説明する。実際の応用において、サンプル文書データベースには複数のサンプル文書が含まれ、各サンプル文書について、それぞれ本実施例のトレーニング過程を実行することにより、基礎モデルの文書を意味表現する能力を強化させつつある。すなわち、図２に示す実施例は繰り返し実行される必要があり、基礎モデルが予め設定された収束条件に達する場合、収束条件に達する基礎モデルを文書処理モデルとする。文書処理モデルは、予備トレーニングモデルと呼ばれてもよい。

本実施例が提供する文書処理モデルのトレーニング方法は、第１のサンプル文書を取得することと、前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定することであって、前記文書要素は前記第１のサンプル文書における文字又は文書領域に対応する、決定することと、前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、これにより、予備トレーニングモデルを取得することとを含む。上述した過程において、複数の文書要素の要素特徴だけでなく、各文書要素のＭ種類の位置タイプに対応する位置を利用し、さらに各文書要素の間の相互関係を考慮し、すなわち、考慮された情報がより全面的であり、したがって、文書処理モデルの文書意味表現の正確性を向上させることができる。

図２に示す実施例を基に、以下に１つの具体的な実施例を参照して、どのように第１のサンプル文書を処理することにより、複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定するかを説明する。

本実施例において、複数の文書要素はＫ１文字及びＫ２個の文書領域を含み、前記Ｋ１及び前記Ｋ２はいずれも０以上の整数である。以下の方式で第１のサンプル文書を処理することができる。

（１）第１のサンプル文書に対して文字認識処理を行い、前記Ｋ１個の文字の要素特徴及び各文字のＭ種類の位置タイプに対応する位置を取得する。

例示的には、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，ＯＣＲ）技術を採用して第１のサンプル文書に文字認識処理を行ってもよく、第１のサンプル文書に含まれる文字、及び各文字の第１のサンプル文書での位置を取得する。ここで、上記位置は１次元位置で表されてもよく、２次元位置（例えば座標情報（ｘ，ｙ，ｈ，ｗ））で表されてもよい。

各文字に対して、当該文字にベクトルマッピングを行うことにより、当該文字に対応する単語ベクトルを取得する。上述したＯＣＲ技術により認識して得られた各文字の位置情報は、常に絶対位置である。当該文字の絶対位置にベクトルマッピングを行うことにより、当該文字に対応する位置ベクトルを取得してもよい。当該文字に対応する単語ベクトル及び位置ベクトルに基づいて、当該文字の要素特徴を生成する。

さらに、各位置タイプに対して、さらに当該文字の絶対位置に基づいて、当該文字のプリセット基準オブジェクトに対する相対位置を決定してもよい。それにより当該文字のＭ種類の位置タイプに対応する位置を取得する。

いくつかの可能なシーンにおいて、文書の組版、レイアウトなどの原因により、文書内の全ての文字は左から右へ、上から下への順序に応じて配列されるものではない。例えば図３Ａに示す文書の上半部分が２列に分割され、その文書を読むときに、まず左列を読んで、右列を読んで、各列において左から右へ、上から下への順に読む。当該文書に対して文字認識処理を直接的に行うと、認識された文字の順は読み順と一致せず、後続のモデルトレーニング過程に影響を与える。

上記シーンに対して、まず文書のレイアウトを解析し、レイアウト情報を取得してもよく、さらにレイアウト情報に基づいて文字認識処理を行い、それにより認識された文字の順が読み順と一致することを保証する。以下に図４を参照して例を挙げて説明する。

図４は本開示の実施例に係るサンプル文書の処理過程の模式図である。図４に示すように、第１のサンプル文書を複数のテキストブロックに分割して、複数のテキストブロックの読み優先順位を決定してもよい。例えば、図４において、第１のサンプル文書を５つのテキストブロックに分割し、読み順は、順次テキストブロック１、テキストブロック３、テキストブロック２、テキストブロック４及びテキストブロック５である。

続いて図４を参照し、それぞれ各テキストブロックに対して文字認識処理を行い、当該テキストブロックに含まれる文字、及び各文字のテキストブロックにおける位置情報を取得する。前記複数のテキストブロックの読み優先順位に基づいて、各テキストブロックに含まれる文字を組み合わせて、第１のサンプル文書に含まれるＫ１個の文字を取得する。例えば、テキストブロック１、テキストブロック３、テキストブロック２、テキストブロック４、テキストブロック５に含まれる文字を順に組み合わせて、第１のサンプル文書に含まれるＫ１個の文字を取得する。

前記Ｋ１個の文字のそれぞれに対して、当該文字にベクトルマッピングを行うことにより、当該文字に対応する単語ベクトルを取得する。当該文字のテキストブロックにおける位置及び各テキストブロックの間の位置関係に基づいて、当該文字の第１のサンプル文書における絶対位置を決定する。当該文字の第１のサンプル文書における絶対位置にベクトルマッピングを行うことにより、当該文字に対応する位置ベクトルを取得する。当該文字に対応する単語ベクトル及び位置ベクトルに基づいて、当該文字の要素特徴を生成する。

さらに、各位置タイプに対して、さらに当該文字の第１のサンプル文書における絶対位置に基づいて、当該文字のプリセット基準オブジェクトに対する相対位置を決定してもよい。それにより当該文字のＭ種類の位置タイプに対応する位置を取得する。

（２）第１のサンプル文書に対応する文書画像をＫ２個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記Ｋ２個の文書領域の要素特徴及び各文書領域のＭ種類の位置タイプに対応する位置を取得する。

以下に図５を参照して例を挙げて説明する。

図５は本開示の実施例に係る他のサンプル文書の処理過程の模式図である。図５に示すように、第１のサンプル文書に対応する文書画像をＫ２個の文書領域（Ｋ２＝４を例とする）に分割して、各文書領域の文書画像における位置を決定する。上記位置は１次元位置で表されてもよく、２次元位置（例えば座標情報（ｘ，ｙ，ｈ，ｗ））で表されてもよい。理解すべきものとして、上記位置は絶対位置である。さらに、各位置タイプに対して、各文書領域の絶対位置に基づいて、当該文書領域のプリセット基準オブジェクトに対する相対位置を決定する。それにより各文書領域のＭ種類の位置タイプに対応する位置を取得する。

さらに、文書画像に特徴抽出を行い、文書画像の画像特徴を取得してもよい。例えば、文書画像を畳み込みネットワーク構造の視覚エンコーダー（ＶｉｓｕａｌＥｎｃｏｄｅｒ）に入力し、視覚エンコーダーにより文書画像に符号化処理を行い、画像特徴を取得してもよい。Ｋ２個の文書領域内の各文書領域に対して、画像特徴から当該文書領域に対応する領域特徴を取得する。例えば、画像特徴を平均プーリング層（ａｖｅｒａｇｅｐｏｏｌｉｎｇ）及び全結合層に入力することにより、画像特徴をＫ２個の文書領域の領域特徴にマッピングする。各文書領域に対して、当該文書領域の文書画像における絶対位置にベクトルマッピング処理を行い、当該文書領域の位置特徴を取得する。当該文書領域の領域特徴及び位置特徴をスティッチングし、当該文書領域の要素特徴を取得する。

理解すべきものとして、上記図４に示す過程により、Ｋ１個の文字の要素特徴、及び各文字のＭ種類の位置タイプに対応する位置を取得することができる。上記図５に示す過程により、Ｋ２個の文書領域の要素特徴、及び各文書領域のＭ種類の位置タイプに対応する位置を取得することができる。上記Ｋ１個の文字及びＫ２個の文書領域をそれぞれ文書要素とし、合計Ｋ１＋Ｋ２個の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を取得する。このように、第１のサンプル文書を利用して基礎モデルをトレーニングするときに、文字の次元から文書を分析することができるだけでなく、文書領域の次元から文書を分析することができる。したがって、文書処理モデルの文書意味表現の正確性をさらに向上させることができる。

上記任意の実施例に基づいて、以下に具体的な実施例を組み合わせて、本開示が提供する文書処理モデルのトレーニング方法をより詳細に説明する。

図６は本開示の実施例に係るさらに他の文書処理モデルのトレーニング方法のフロー模式図である。本実施例の方法は、図２に示す例におけるＳ２０３の可能な実現形態としてもよい。図６に示すように、本実施例に係る方法は以下のステップを含む。

Ｓ６０１、複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を基礎モデルに入力する。

理解を容易にするために、以下に図７を参照して例を挙げて説明する。

図７は本開示の実施例に係る基礎モデルのデータ処理過程の模式図である。図７に示すように、Ｍ＝３であると仮定し、Ｍ種類の位置タイプはそれぞれ位置タイプＡ、位置タイプＢ、位置タイプＣである。例えば、位置タイプＡは１次元位置タイプであってもよく、位置タイプＢは文書高さ方向の位置タイプであってもよく、位置タイプＣは文書幅方向の位置タイプであってもよい。

図７を参照して、文書要素の数がＸであると仮定する。基礎モデルに、各文書要素（文書要素１～ｘ）の要素特徴、各文書要素（文書要素１～ｘ）の位置タイプＡに対応する位置、各文書要素（文書要素１～ｘ）の位置タイプＢに対応する位置、各文書要素（文書要素１～ｘ）の位置タイプＣに対応する位置を入力する。

本実施例において、各文書要素のＭ種類の位置タイプに対応する位置をそれぞれ基礎モデルに入力し、Ｍ種類の位置タイプに対応する位置を融合した後に融合位置を基礎モデルに入力することではなく、このようにして、異なる位置タイプに対応する位置が早すぎて融合することを回避することができ、それにより、基礎モデルの内部に異なる位置タイプに対応する位置を区別することができ、又は、基礎モデルの内部に異なる位置タイプに対応する位置にディカップリング処理を行うことができ、さらにモデルトレーニング過程においてより多くの知識を学習することができ、文書に対する意味表現能力を向上させる。

Ｓ６０２、前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定する。

換言すれば、基礎モデルの内部において、複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定する。理解すべきものとして、文書要素の注意力重みが大きいほど、トレーニング過程においてより多くの注意力を当該文書要素の要素特徴に加えることを説明する。文書要素の注意力重みが小さいほど、トレーニング過程において少ない注意力を当該文書要素の要素特徴に加えることを説明する。以上より、各文書要素の注意力重みパラメータはモデルトレーニング過程を指導することができる。

１つの可能な実施形態において、各文書要素の注意力重みパラメータを以下の方式で決定することができる。

（１）前記複数の文書要素の要素特徴に対して第１の線形処理及び第２の線形処理を行い、それぞれ第１の特徴行列及び第２の特徴行列を取得する。

例示的には、図７を参照して、各文書要素（文書要素１～ｘ）の要素特徴に対して第１の線形処理を行い、第１の特徴行列Ｑ_ｃを取得する。各文書要素（文書要素１～ｘ）の要素特徴に対して第２の線形処理を行い、第２の特徴行列Ｋ_ｃを取得する。

（２）前記Ｍ種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して第１の線形処理及び第２の線形処理を行い、それぞれ前記位置タイプに対応する第１の位置行列及び第２の位置行列を取得する。

例示的には、図７を参照して、位置タイプＡに対応する各文書要素（文書要素１～ｘ）の位置に対して第１の線形処理を行い、位置タイプＡに対応する第１の位置行列Ｑ_ｐを取得する。位置タイプＡに対応する各文書要素（文書要素１～ｘ）の位置に対して第２の線形処理を行い、第２の位置行列Ｋ_ｐを取得する。

続いて図７を参照して、位置タイプＢに対応する各文書要素（文書要素１～ｘ）の位置に対して第１の線形処理を行い、位置タイプＢに対応する第１の位置行列Ｑ_ｘを取得する。位置タイプＢに対応する各文書要素（文書要素１～ｘ）の位置に対して第２の線形処理を行い、位置タイプＢに対応する第２の位置行列Ｋ_ｘを取得する。

続いて図７を参照して、位置タイプＣに対応する各文書要素（文書要素１～ｘ）の位置に対して第１の線形処理を行い、位置タイプＣに対応する第１の位置行列Ｑ_ｙを取得する。位置タイプＣに対応する各文書要素（文書要素１～ｘ）の位置に対して第２の線形処理を行い、位置タイプＣに対応する第２の位置行列Ｋ_ｙを取得する。

（３）前記第１の特徴行列、前記第２の特徴行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第１の位置行列及び第２の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定する。

１つの可能な実施形態において、以下の方式を採用することができる。

（ａ）第１の特徴行列及び第２の特徴行列に基づいて、第１の注意力行列を決定する。

例示的には、図７を参照して、第１の特徴行列Ｑ_ｃと第２の特徴行列Ｋ_ｃに対して所定の演算を行うことにより、第１の注意力行列を取得することができる。１つの実施形態において、上記所定の演算は行列内積演算であってもよい。

（ｂ）第１の特徴行列及び各位置タイプに対応する第２の位置行列に基づいて、当該位置タイプに対応する第２の注意力行列を決定する。

続いて図７を参照して、第１の特徴行列Ｑ_ｃと位置タイプＡに対応する第２の位置行列Ｋ_ｐに所定の演算を行い、位置タイプＡに対応する第２の注意力行列を取得する。第１の特徴行列Ｑ_ｃと位置タイプＢに対応する第２の位置行列Ｋ_ｘに所定の演算を行い、位置タイプＢに対応する第２の注意力行列を取得する。第１の特徴行列Ｑ_ｃと位置タイプＣに対応する第２の位置行列Ｋ_ｙに所定の演算を行い、位置タイプＣに対応する第２の注意力行列を取得する。１つの実施形態において、上記所定の演算は行列内積演算であってもよい。

（ｃ）第２の特徴行列及び各位置タイプに対応する第１の位置行列に基づいて、当該位置タイプに対応する第３の注意力行列を決定する。

続いて図７を参照して、第２の特徴行列Ｋ_ｃと位置タイプＡに対応する第１の位置行列Ｑ_ｐに所定の演算を行い、位置タイプＡに対応する第３の注意力行列を取得する。第２の特徴行列Ｋ_ｃと位置タイプＢに対応する第１の位置行列Ｑ_ｘに所定の演算を行い、位置タイプＢに対応する第３の注意力行列を取得する。第２の特徴行列Ｋ_ｃと位置タイプＣに対応する第１の位置行列Ｑ_ｙに所定の演算を行い、位置タイプＣに対応する第３の注意力行列を取得する。１つの実施形態において、上記所定の演算は行列内積演算であってもよい。

（ｄ）第１の注意力行列、及びＭ種類の位置タイプそれぞれに対応する第２の注意力行列及び第３の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定する。

１つの実施形態において、前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列と第３の注意力行列との和を、目標注意力行列として決定してもよい。さらに、目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定する。

例示的には、図７を参照して、第１の注意力行列、位置タイプＡに対応する第２の注意力行列、位置タイプＡに対応する第３の注意力行列、位置タイプＢに対応する第２の注意力行列、位置タイプＢに対応する第３の注意力行列、位置タイプＣに対応する第２の注意力行列、位置タイプＣに対応する第３の注意力行列を加算して、目標注意力行列を取得する。さらに、目標注意力行列に基づいて、各文書要素の注意力重みパラメータを決定する。

Ｓ６０３、前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、文書処理モデルを取得する。

例示的には、続いて図７を参照して、各文書要素（文書要素１～ｘ）の要素特徴に対して第３の線形処理を行い、第３の特徴行列Ｖ_ｃを取得する。さらに、第３の特徴行列Ｖ_ｃ及び各文書要素の注意力重みパラメータに基づいて、基礎モデルをトレーニングして、文書処理モデルを取得する。

各文書要素の注意力重みパラメータはトレーニング過程において各文書要素に与える注意力を指示し、したがって、基礎モデルをトレーニングするとき、各文書要素の注意力重みパラメータに基づいて、異なる文書要素に異なる注意力を加えることができ、それにより文書処理モデルの文書に対する意味表現能力を向上させる。

本実施例において、各文書要素の要素特徴及び各文書要素のＭ種類の位置タイプに対応する位置を基礎モデルに入力することにより、基礎モデルの内部に異なる位置タイプに対応する位置を区別することができ、又は、基礎モデルの内部に異なる位置タイプに対応する位置にディカップリング処理を行うことができ、これにより、モデルトレーニング過程においてより多くの知識を学習することができ、文書に対する意味表現能力を向上させる。

さらに、基礎モデルの内部において、各文書要素の注意力重みパラメータを決定するとき、第１の特徴行列Ｑ_ｃ及び第２の特徴行列Ｋ_ｃで取得された第１の注意力行列だけでなく、第１の特徴行列Ｑ_ｃと異なる位置タイプに対応する第２の位置行列（Ｋ_ｐ、Ｋ_ｘ、Ｋ_ｙ）で取得された各位置タイプに対応する第２の注意力行列、及び第２の特徴行列Ｋ_ｃと異なる位置タイプに対応する第１の位置行列（Ｑ_ｐ、Ｑ_ｘ、Ｑ_ｙ）を考慮して取得された各位置タイプに対応する第３の注意力行列を考慮する。すなわち、各文書要素の注意力重みパラメータを決定するとき、要素特徴と異なる位置タイプに対応する位置との間の関係を十分に考慮し、それによりモデルトレーニング過程においてより多くの知識を学習することができ、文書に対する意味表現能力をさらに向上させる。

図６及び図７に示す実施例を基に、基礎モデルに予備トレーニングを行う過程において、Ｎ個のトレーニングタスクを同時にトレーニングする方式を採用してもよく、Ｎは１以上の整数である。このようにして、文書処理モデルは異なる文書処理タスクシーンに迅速に遷移することができる。

４つのトレーニングタスクを例として説明する。４つのトレーニングタスクはそれぞれ以下のとおりであると仮定する。

トレーニングタスク１：サンプル文書における一部の文字に対してマスク（ｍａｓｋ）を行うことができ、予備トレーニング過程において、マスクされたのはどのような文字であるかを予測する。当該予測タスクにおいて、一部の文字をマスクする以外に、マスクする文字が位置する文書領域に対して黒塗り操作を行う必要があり、それにより文書領域側のタグ漏洩を回避する。

トレーニングタスク２：第１のサンプル文書におけるある文書領域をランダムに黒く塗り、どの文字が黒く塗られるかを予測する。

トレーニングタスク３：第１のサンプル文書におけるある文書領域をランダムに置換し、どの文書領域が置換されるかを予測する。

トレーニングタスク４：第１のサンプル文書におけるある文字に対して、当該文字の次の文字がどれであるかを予測する。

以下に図８を参照しながら複数のトレーニングタスクを同時に実行するモデルトレーニングの方式に例を挙げて説明する。図８は本開示の実施例に係るモデルトレーニング過程の模式図である。図８に示すように、第１のサンプル文書の関連データ（各文書要素の要素特徴、各文書要素のＭ種類の位置タイプに対応する位置）を基礎モデルに入力する前に、複数の文書要素においてそれぞれのトレーニングタスクに対応する目標文書要素を決定して、前記目標文書要素にスクランブリング処理を行うことをさらに含む。すなわち、上記４つのトレーニングタスクのそれぞれに対応する目標文書要素にスクランブリング処理を行った後、さらに基礎モデルを入力する。上記スクランブリング処理は、マスク処理、置換処理、黒塗り処理などであってもよい。

基礎モデルの内部において、第３の特徴行列及び各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定してもよい。図８を参照して例を挙げて説明し、トレーニングタスク１について、第３の特徴行列及び各文書要素の注意力重みパラメータに基づいて、トレーニングタスク１に対応する予測文書要素を決定する（すなわち、どの文字がマスクされたかを予測する）。トレーニングタスク２について、第３の特徴行列及び各文書要素の注意力パラメータに基づいて、トレーニングタスク２に対応する予測文書要素を決定する（すなわち、どの文字が黒く塗られたかを予測する）。トレーニングタスク３について、第３の特徴行列及び各文書要素の注意力パラメータに基づいて、トレーニングタスク３に対応する予測文書要素を決定する（すなわち、どの文字領域が置換されたかを予測する）。トレーニングタスク４について、第３の特徴行列及び各文書要素の注意力パラメータに基づいて、トレーニングタスク４に対応する予測文書要素を決定する（すなわち、次の文字を予測する）。

さらに、Ｎ個のトレーニングタスクのそれぞれに対応する目標文書要素、及びＮ個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、基礎モデルをトレーニングすることにより、文書処理モデルを取得してもよい。

例示的には、Ｎ個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定する。図８を参照して例を挙げて説明し、トレーニングタスク１に対応する予測文書要素及びトレーニングタスク１に対応する目標文書要素に基づいて、トレーニングタスク１に対応する損失関数を決定する。トレーニングタスク２に対応する予測文書要素及びトレーニングタスク２に対応する目標文書要素に基づいて、トレーニングタスク２に対応する損失関数を決定する。トレーニングタスク３に対応する予測文書要素とトレーニングタスク３に対応する目標文書要素に基づいて、トレーニングタスク３に対応する損失関数を決定する。トレーニングタスク４に対応する予測文書要素とトレーニングタスク４に対応する目標文書要素に基づいて、トレーニングタスク４に対応する損失関数を決定する。

Ｎ個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定する。図８を参照し、トレーニングタスク１に対応する損失関数、トレーニングタスク２に対応する損失関数、トレーニングタスク３に対応する損失関数、及びトレーニングタスク４に対応する損失関数に所定の演算を行い、目標損失関数を取得してもよい。さらに、目標損失関数に基づいて、基礎モデルのモデルパラメータを更新する。

理解すべきものとして、上記説明は１回の反復トレーニング過程である。複数のサンプル文書について、それぞれ上記反復トレーニング過程を実行し、基礎モデルが収束条件に達するまでトレーニングを停止する。収束条件に達した基礎モデルを文書処理モデルとする。

本実施例において、複数のトレーニングタスクを同時に行うモデルトレーニング方式を採用することにより、文書処理モデルは複数のトレーニングタスクのトレーニング目標を融合させ、文書処理モデルの文書意味表現への効果を向上させ、それにより文書処理モデルは異なる文書処理シーンに迅速に遷移することができる。

上記任意の実施例に基づいて、文書処理モデルを取得した後、さらに、予め設定された文書タスクに対応するサンプルデータを取得することであって、前記サンプルデータは第２のサンプル文書及び前記第２のサンプル文書に対応するラベルデータを含む、取得することと、前記文書処理モデルにより前記第２のサンプル文書を処理し、予測データを取得することと、前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得することとをさらに含んでもよい。

ここで、上記予め設定された文書タスクは、文書分類タスク、文書分析タスク、文書から情報抽出を行うタスクなどを含むがそれらに限定されない。

サンプルデータには、第２のサンプル文書及び第２のサンプル文書に対応するラベルデータが含まれる。理解すべきものとして、異なる文書処理タスクについて、サンプルデータにおけるラベルデータが異なる可能性があり、本実施例はこれを限定しない。例えば、文書分類タスクについて、上記ラベルデータは第２のサンプル文書のラベル種別を指示してもよい。文書解析タスクについて、上記ラベルデータは第２のサンプル文書のラベル分析結果を指示してもよい。文書情報抽出タスクについて、上記ラベルデータは第２のサンプル文書のラベル情報抽出結果を指示してもよい。

第２のサンプルデータを文書処理モデルに入力し、文書処理モデルにより第２のサンプルデータを処理し、予測データを取得する。理解すべきものとして、異なる文書処理タスクについて、文書処理モデルが出力した予測データが異なる可能性があり、本実施例はこれを限定しない。例えば、文書分類タスクについて、上記予測データは第２のサンプル文書の予測種別を指示してもよい。文書分析タスクについて、上記予測データは第２のサンプル文書の予測分析結果を指示してもよい。文書情報抽出タスクについて、上記予測データは第２のサンプル文書の予測情報抽出結果を指示してもよい。

予測データ及びラベルデータに基づいて、損失関数を決定し、損失関数に基づいて文書処理モデルのモデルパラメータを調整する。

理解すべきものとして、本実施例が説明するのは図１に示すファインチューニング段階である。ファインチューニング段階において、予め設定された文書タスクに対応する少量のサンプルデータを利用し、予備トレーニング段階で取得した文書処理モデルにファインチューニングトレーニングを行うだけで、予め設定された文書タスクに対応する目標モデルを取得することができ、モデルトレーニング効率を向上させる。本開示において、予備トレーニング過程は文書処理モデルの文書意味の表現能力を向上させ、したがって、予め設定された文書タスクに対応する目標モデルの文書処理品質も向上させる。

図９は本開示の実施例に係る文書処理モデルのトレーニング装置の構造模式図である。本実施例に係る文書処理モデルのトレーニング装置は、ソフトウェア及び／又はハードウェアの形式であってもよい。図９に示すように、本実施例に係る文書処理モデルのトレーニング装置９００は、第１の取得モジュール９０１、処理モジュール９０２及び第１のトレーニングモジュール９０３を含む。ここで、

第１の取得モジュール９０１は、第１のサンプル文書を取得するために用いられる。

決定モジュール９０２は、前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定するために用いられる。ここで、前記文書要素は前記第１のサンプル文書における文字又は文書領域に対応し、前記Ｍは１以上の整数である。

第１のトレーニングモジュール９０３は、前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、文書処理モデルを取得するために用いられる。

１つの可能な実施形態において、前記第１のトレーニングモジュール９０３は、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を前記基礎モデルに入力するための入力ユニットと、
前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するための第１の決定ユニットと、
前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するためのトレーニングユニットとを含む。

１つの可能な実施形態において、前記第１の決定ユニットは、
前記複数の文書要素の要素特徴に対して第１の線形処理及び第２の線形処理を行い、それぞれ第１の特徴行列及び第２の特徴行列を取得するための第１の処理サブユニットと、
前記Ｍ種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して前記第１の線形処理及び前記第２の線形処理を行い、それぞれ前記位置タイプに対応する第１の位置行列及び第２の位置行列を取得するための第２の処理サブユニットと、
前記第１の特徴行列、前記第２の特徴行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第１の位置行列及び第２の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するための決定サブユニットとを含む。

１つの可能な実施形態において、前記決定サブユニットは、具体的に、
前記第１の特徴行列及び前記第２の特徴行列に基づいて、第１の注意力行列を決定することと、
前記第１の特徴行列及び各位置タイプに対応する第２の位置行列に基づいて、当該位置タイプに対応する第２の注意力行列を決定することと、
前記第２の特徴行列及び各位置タイプに対応する第１の位置行列に基づいて、当該位置タイプに対応する第３の注意力行列を決定することと、
前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列及び第３の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる。

１つの可能な実施形態において、前記決定サブユニットは、具体的に、
前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列と第３の注意力行列との和を、目標注意力行列として決定することと、
前記目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる。

１つの可能な実施形態において、前記トレーニングユニットは、
前記複数の文書要素の要素特徴に対して第３の線形処理を行い、第３の特徴行列を取得するための第３の処理サブユニットと、
前記第３の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、前記文書処理モデルを取得するためのトレーニングサブユニットとを含む。

１つの可能な実施形態において、前記第１のトレーニングモジュール９０３は、
Ｎ個のトレーニングタスクに基づいて、前記複数の文書要素において各トレーニングタスクに対応する目標文書要素をそれぞれ決定して、前記目標文書要素にスクランブリング処理を行うためのスクランブリング処理ユニットであって、前記Ｎは１以上の整数であるスクランブリング処理ユニットをさらに含む。

前記トレーニングサブユニットは具体的に、
前記第３の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定することと、
前記Ｎ個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記Ｎ個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、前記文書処理モデルを取得することとに用いられる。

１つの可能な実施形態において、前記トレーニングサブユニットは、具体的に、
前記Ｎ個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定することと、
前記Ｎ個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定することと、
前記目標損失関数に基づいて、前記基礎モデルのモデルパラメータを更新するすることにより、前記文書処理モデルを取得することとに用いられる。

１つの可能な実施形態において、前記複数の文書要素はＫ１個の文字及びＫ２個の文書領域を含み、前記Ｋ１及び前記Ｋ２はいずれも０以上の整数である。前記決定モジュール９０２は、
前記第１のサンプル文書に対して文字認識処理を行い、前記Ｋ１個の文字の要素特徴及び各文字のＭ種類の位置タイプに対応する位置を取得するための第２の決定ユニットと、
前記第１のサンプル文書に対応する文書画像をＫ２個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記Ｋ２個の文書領域の要素特徴及び各文書領域のＭ種類の位置タイプに対応する位置を取得するための第３の決定ユニットとを含む。

１つの可能な実施形態において、本実施例の文書処理モデルのトレーニング装置９００は、
予め設定された文書タスクに対応するサンプルデータを取得するための第２の取得モジュールであって、前記サンプルデータは、第２のサンプル文書及び前記第２のサンプル文書に対応するラベルデータを含む第２の取得モジュールと、
前記文書処理モデルにより前記第２のサンプル文書を処理し、予測データを取得するための処理モジュールと、
前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得するための第２のトレーニングモジュールとをさらに含む。

つの可能な実施形態において、前記Ｍ種類の位置タイプは１次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの１つの種類又は複数の種類を含む。

前記文書要素の１次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられる。

前記文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第１のプリセット基準座標との間のずれ量を指示するために用いられる。

前記文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第２のプリセット基準座標との間のずれ量を指示するために用いられる。

本実施例に係る文書処理モデルのトレーニング装置は、上記任意の方法実施例に係る文書処理モデルのトレーニング方法を実行するために用いられ、その実現原理及び技術的効果が類似し、ここでは説明を省略する。

本開示の技術案において、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、いずれも関連する法律、規則の規定に適合し、かつ公序良俗に反するものではない。

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。

本開示の実施例によれば、本開示はさらにコンピュータプログラム製品が提供され、コンピュータプログラム製品は、コンピュータプログラムを含み、コンピュータプログラムが可読記憶媒体に記憶され、電子装置の少なくとも１つのプロセッサが可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサがコンピュータプログラムを実行することにより電子機器が上記いずれかの実施例に係るスキームを実行させる。

図１０は、本開示の実施例を実施するために使用されることができる例示的な電子機器１０００の模式的なブロック図が示される。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表すことを意図する。電子機器はさらに様々な形式の移動装置を表してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示されたパーツ、それらの接続及び関係、及びそれらの機能は例示に過ぎず、かつ本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図１０に示すように、電子機器１０００はコンピューティングユニット１００１を含み、それはリードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム又は記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する。ＲＡＭ１００３において、さらに電子機器１０００の操作に必要な様々なプログラム及びデータを記憶してもよい。コンピューティングユニット１００１、ＲＯＭ１００２、及びＲＡＭ１００３は、バス１００４により相互に接続される。バス１００４には、さらに、入出力（Ｉ／Ｏ）インタフェース１００５が接続される。

電子機器１０００における複数のパーツはＩ／Ｏインタフェース１００５に接続され、複数のパーツは、例えばキーボード、マウスなどである入力ユニット１００６、例えば様々なタイプのディスプレイ、スピーカなどである出力ユニット１００７、例えば磁気ディスク、光ディスクなどである記憶ユニット１００８、及び例えばネットワークカード、モデム、無線通信トランシーバなどである通信ユニット１００９を含む。通信ユニット１００９は、電子機器１０００がインターネットなどのコンピュータネットワーク及び／又は様々の電気通信網を介して他の機器と情報／データを交換することを許可する。

コンピューティングユニット１００１は、様々の処理及び算出能力を有する汎用及び／又は専用の処理コンポーネントであってもよい。コンピューティングユニット１００１のいくつかの例示は、中央処理部（ＣＰＵ）、グラフィクスプロセッシングユニット（ＧＰＵ）、様々の種類の専用の人工知能（ＡＩ）計算チップ、様々の機械学習モデルアルゴリズムを動作するコンピューティングユニット、デジタル信号処理部（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されるものではない。コンピューティングユニット１００１は上記説明された各方法及び処理、例えば文書処理モデルのトレーニング方法を実行する。例えば、いくつかの実施例において、文書処理モデルのトレーニング方法はコンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット１００８に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ１００２及び／又は通信ユニット１００９を介して電子機器１０００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて、コンピューティングユニット１００１により実行される場合、上記記載された文書処理モデルのトレーニング方法の１つ又は複数のステップを実行させることができる。代替的に、他の実施例において、コンピューティングユニット１００１は他の任意の適切な方式（例えば、ファームウェアにより）により文書処理モデルのトレーニング方法を実行するように構成されてもよい。

本明細書で説明したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、チップ上システムのシステム（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は以下を含んでもよい。１つ又は複数のコンピュータプログラムにおいて、当該１つ又は複数のコンピュータプログラムは少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び／又は解釈され、当該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信して、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送してもよい。

本開示の方法を実施するためのプログラムコードは１つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されるときにフローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは機器に完全に実行されもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして、部分的に機器で実行され、かつ部分的に遠隔機器で実行され、又は完全に遠隔機器又はサーバで実行される。

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、それは命令実行システム、装置又は機器が使用する又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか又は記憶してもよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子的、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例は１つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯式コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びキーボードとポインティング装置（例えば、マウス又はトラックボール）を有し、ユーザは当該キーボード及び当該ポインティング装置を介して入力をコンピュータに提供することができる。他の種類の装置はさらにユーザとの対話を提供するために用いられる。例えば、ユーザに提供されたフィードバックは任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かつ任意の形式（声入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術をバックグラウンドパーツを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアパーツを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドパーツを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインタフェース又は当該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンドパーツ、ミドルウェアパーツ、又はフロントエンドパーツの任意の組み合わせを含むコンピューティングシステムに実施してもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムのパーツを互いに接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムはクライアント及びサーバを含んでもよい。クライアントとサーバとは一般的に離れており、かつ普通に通信ネットワークを介して対話を行う。クライアントとサーバとの関係は、対応するコンピュータで動作され、かつお互いにクライアント‐サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの１つのホスト製品であり、それにより従来の物理ホストとＶＰＳ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスにおいて、存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分散式システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

理解すべきものとして、以上に示した様々な形式のフローを使用し、改めてソーティングし、ステップを追加するか又は削除してもよい。例えば、本開示に記載の各ステップは並列的に実行されてもよく、順に実行されてもよく、異なる順序で実行されてもよく、本開示に開示される技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要求及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることを理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

文書処理モデルのトレーニング方法であって、
第１のサンプル文書を取得するステップと、
前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定するステップであって、ここで、前記文書要素は前記第１のサンプル文書における文字又は文書領域に対応し、前記Ｍは１以上の整数であるステップと、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップとを含み、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップは、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を前記基礎モデルに入力するステップと、
前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するステップと、
前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップと、を含み、
複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するステップは、
前記複数の文書要素の要素特徴に対して第１の線形処理及び第２の線形処理を行い、それぞれ第１の特徴行列及び第２の特徴行列を取得するステップと、
前記Ｍ種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して前記第１の線形処理及び前記第２の線形処理を行い、それぞれ前記位置タイプに対応する第１の位置行列及び第２の位置行列を取得するステップと、
前記第１の特徴行列、前記第２の特徴行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第１の位置行列及び第２の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップと、を含み、
前記文書処理モデルを取得するステップの後に、
予め設定された文書タスクに対応するサンプルデータを取得するステップであって、前記サンプルデータは、第２のサンプル文書及び前記第２のサンプル文書に対応するラベルデータを含むステップと、
前記文書処理モデルにより前記第２のサンプル文書を処理し、予測データを取得するステップと、
前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得するステップとをさらに含む、
文書処理モデルのトレーニング方法。
前記第１の特徴行列、前記第２の特徴行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第１の位置行列及び第２の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップは、
前記第１の特徴行列及び前記第２の特徴行列に基づいて、第１の注意力行列を決定するステップと、
前記第１の特徴行列及び各位置タイプに対応する第２の位置行列に基づいて、当該位置タイプに対応する第２の注意力行列を決定するステップと、
前記第２の特徴行列及び各位置タイプに対応する第１の位置行列に基づいて、当該位置タイプに対応する第３の注意力行列を決定するステップと、
前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列及び第３の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップと、を含む、請求項１に記載の文書処理モデルのトレーニング方法。
前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列及び第３の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップは、
前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列と第３の注意力行列との和を、目標注意力行列として決定するステップと、
前記目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定するステップとを含む、請求項２に記載の文書処理モデルのトレーニング方法。
前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップは、
前記複数の文書要素の要素特徴に対して第３の線形処理を行い、第３の特徴行列を取得するステップと、
前記第３の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップとを含む、請求項１～請求項３のいずれか一項に記載の文書処理モデルのトレーニング方法。
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を前記基礎モデルに入力するステップの前に、
Ｎ個のトレーニングタスクに基づいて、前記複数の文書要素において各トレーニングタスクに対応する目標文書要素をそれぞれ決定して、前記目標文書要素にスクランブリング処理を行うステップであって、前記Ｎは１以上の整数であるステップをさらに含み、
前記第３の特徴行列及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップは、
前記第３の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定するステップと、
前記Ｎ個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記Ｎ個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップと、を含む、請求項４に記載の文書処理モデルのトレーニング方法。
前記Ｎ個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記Ｎ個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、前記文書処理モデルを取得するステップは、
前記Ｎ個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定するステップと、
前記Ｎ個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定するステップと、
前記目標損失関数に基づいて、前記基礎モデルのモデルパラメータを更新するすることにより、収束条件に達する前記基礎モデルを前記文書処理モデルとするステップと、を含む、請求項５に記載の文書処理モデルのトレーニング方法。
前記複数の文書要素はＫ１個の文字及びＫ２個の文書領域を含み、前記Ｋ１及び前記Ｋ２はいずれも０以上の整数であり、前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定するステップは、
前記第１のサンプル文書に対して文字認識処理を行い、前記Ｋ１個の文字の要素特徴及び各文字のＭ種類の位置タイプに対応する位置を取得するステップと、
前記第１のサンプル文書に対応する文書画像をＫ２個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記Ｋ２個の文書領域の要素特徴及び各文書領域のＭ種類の位置タイプに対応する位置を取得するステップとを含む、請求項１～請求項３のいずれか一項に記載の文書処理モデルのトレーニング方法。
前記Ｍ種類の位置タイプは、
１次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの１つの種類又は複数の種類を含み、
前記文書要素の１次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられ、
前記文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第１のプリセット基準座標との間のずれ量を指示するために用いられ、
前記文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第２のプリセット基準座標との間のずれ量を指示するために用いられる、請求項１～請求項３のいずれか一項に記載の文書処理モデルのトレーニング方法。
第１のサンプル文書を取得するための第１の取得モジュールと、
前記第１のサンプル文書に基づいて、前記第１のサンプル文書における複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を決定するための決定モジュールであって、ここで、前記文書要素は前記第１のサンプル文書における文字又は文書領域に対応し、前記Ｍは１以上の整数である決定モジュールと、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするための第１のトレーニングモジュールと、を含み、
前記第１のトレーニングモジュールは、
前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置を前記基礎モデルに入力するための入力ユニットと、
前記基礎モデルを介して、前記複数の文書要素の要素特徴、及び各文書要素のＭ種類の位置タイプに対応する位置に基づいて、各文書要素の注意力重みパラメータを決定するための第１の決定ユニットと、
前記複数の文書要素の要素特徴、及び各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするためのトレーニングユニットとを含み、
前記第１の決定ユニットは、
前記複数の文書要素の要素特徴に対して第１の線形処理及び第２の線形処理を行い、それぞれ第１の特徴行列及び第２の特徴行列を取得するための第１の処理サブユニットと、
前記Ｍ種類の位置タイプにおける各位置タイプに対して、前記位置タイプに対応する各文書要素の位置に対して前記第１の線形処理及び前記第２の線形処理を行い、それぞれ前記位置タイプに対応する第１の位置行列及び第２の位置行列を取得するための第２の処理サブユニットと、
前記第１の特徴行列、前記第２の特徴行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第１の位置行列及び第２の位置行列に基づいて、前記各文書要素の注意力重みパラメータを決定するための決定サブユニットとを含み、
予め設定された文書タスクに対応するサンプルデータを取得するための第２の取得モジュールであって、前記サンプルデータは、第２のサンプル文書及び前記第２のサンプル文書に対応するラベルデータを含む第２の取得モジュールと、
前記文書処理モデルにより前記第２のサンプル文書を処理し、予測データを取得するための処理モジュールと、
前記予測データと前記ラベルデータとの間の差異に基づいて、前記文書処理モデルのパラメータを調整して、前記予め設定された文書タスクに対応するターゲットモデルを取得するための第２のトレーニングモジュールとをさらに含む、
文書処理モデルのトレーニング装置。
前記決定サブユニットは具体的に、
前記第１の特徴行列及び前記第２の特徴行列に基づいて、第１の注意力行列を決定することと、
前記第１の特徴行列及び各位置タイプに対応する第２の位置行列に基づいて、当該位置タイプに対応する第２の注意力行列を決定することと、
前記第２の特徴行列及び各位置タイプに対応する第１の位置行列に基づいて、当該位置タイプに対応する第３の注意力行列を決定することと、
前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列及び第３の注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる、請求項９に記載の文書処理モデルのトレーニング装置。
前記決定サブユニットは具体的に、
前記第１の注意力行列、及び前記Ｍ種類の位置タイプそれぞれに対応する第２の注意力行列と第３の注意力行列との和を、目標注意力行列として決定することと、
前記目標注意力行列に基づいて、前記各文書要素の注意力重みパラメータを決定することとに用いられる、請求項１０に記載の文書処理モデルのトレーニング装置。
前記トレーニングユニットは、
前記複数の文書要素の要素特徴に対して第３の線形処理を行い、第３の特徴行列を取得するための第３の処理サブユニットと、
前記第３の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、前記基礎モデルをトレーニングして、収束条件に達する前記基礎モデルを前記文書処理モデルとするためのトレーニングサブユニットと、を含む、請求項９～請求項１１のいずれか一項に記載の文書処理モデルのトレーニング装置。
前記第１のトレーニングモジュールは、
Ｎ個のトレーニングタスクに基づいて、前記複数の文書要素において各トレーニングタスクに対応する目標文書要素をそれぞれ決定して、前記目標文書要素にスクランブリング処理を行うためのスクランブリング処理ユニットであって、前記Ｎは１以上の整数であるスクランブリング処理ユニットをさらに含み、
前記トレーニングサブユニットは具体的に、
前記第３の特徴行列及び前記各文書要素の注意力重みパラメータに基づいて、各トレーニングタスクに対応する予測文書要素をそれぞれ決定することと、
前記Ｎ個のトレーニングタスクのそれぞれに対応する目標文書要素、及び前記Ｎ個のトレーニングタスクのそれぞれに対応する予測文書要素に基づいて、前記基礎モデルをトレーニングすることにより、収束条件に達する前記基礎モデルを前記文書処理モデルとすることと、に用いられる、請求項１２に記載の文書処理モデルのトレーニング装置。
前記トレーニングサブユニットは具体的に、
前記Ｎ個のトレーニングタスクにおける各トレーニングタスクについて、当該トレーニングタスクに対応する目標文書要素及び予測文書要素に基づいて、当該トレーニングタスクに対応する損失関数を決定することと、
前記Ｎ個のトレーニングタスクのそれぞれに対応する損失関数に基づいて、目標損失関数を決定することと、
前記目標損失関数に基づいて、前記基礎モデルのモデルパラメータを更新するすることにより、前記文書処理モデルを取得することと、に用いられる、請求項１３に記載の文書処理モデルのトレーニング装置。
前記複数の文書要素はＫ１個の文字及びＫ２個の文書領域を含み、前記Ｋ１及び前記Ｋ２はいずれも０以上の整数であり、前記決定モジュールは、
前記第１のサンプル文書に対して文字認識処理を行い、前記Ｋ１個の文字の要素特徴及び各文字のＭ種類の位置タイプに対応する位置を取得するための第２の決定ユニットと、
前記第１のサンプル文書に対応する文書画像をＫ２個の文書領域に分割して、前記文書画像に特徴抽出を行い、前記Ｋ２個の文書領域の要素特徴及び各文書領域のＭ種類の位置タイプに対応する位置を取得するための第３の決定ユニットと、を含む、請求項９～請求項１１のいずれか一項に記載の文書処理モデルのトレーニング装置。
前記Ｍ種類の位置タイプは、
１次元位置タイプ、文書幅方向位置タイプ、文書高さ方向位置タイプのうちの１つの種類又は複数の種類を含み、
前記文書要素の１次元位置タイプに対応する位置は、当該文書要素の前記複数の文書要素における配列位置を指示するために用いられ、
前記文書要素の文書幅方向位置タイプに対応する位置は、当該文書要素の文書幅方向での座標と第１のプリセット基準座標との間のずれ量を指示するために用いられ、
前記文書要素の文書高さ方向位置タイプに対応する位置は、当該文書要素の文書高さ方向での座標と第２のプリセット基準座標との間のずれ量を指示するために用いられる、請求項９～請求項１１のいずれか一項に記載の文書処理モデルのトレーニング装置。
少なくとも１つのプロセッサ、及び
前記少なくとも１つのプロセッサと通信可能に接続されたメモリを含み、
前記メモリには前記少なくとも１つのプロセッサにより実行できる命令が記憶され、前記命令は前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサは請求項１～３のいずれか一項に記載の方法を実行することができる、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読媒体であって、前記コンピュータ命令はコンピュータに請求項１～３のいずれか一項に記載の方法を実行させるために用いられる、
非一時的なコンピュータ可読媒体。
プロセッサによって実行されるとき請求項１～３のいずれか一項に記載の方法のステップが実現される、
コンピュータプログラム。