JP7438303B2

JP7438303B2 - ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP7438303B2
Application number: JP2022156162A
Authority: JP
Inventors: 徐屹陳; ▲ウェイ▼ 新劉; 宇翔盧; 佳祥劉; 世維黄
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2022-09-29
Publication date: 2024-02-26
Anticipated expiration: 2042-09-29
Also published as: US20230047980A1; EP4195110A1; CN114202076B; JP2022173453A; CN114202076A

Description

本開示は、人工知能技術分野に関し、特にディープラーニング技術及び自然言語処理技術に関する。より具体的には、本開示は、ディープラーニングモデルのトレーニング方法、自然言語処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

事前トレーニングモデルのパラメータ数を増加させて、モデルの性能を向上させることができる。生産環境において、事前トレーニングモデルに蒸留圧縮を行うことにより、計算量を減少することができる。

本発明は、ディープラーニングモデルのトレーニング方法、自然言語処理方法、装置、機器、記憶媒体及びコンピュータプログラムを提供した。

第１の局面によれば、第１のサンプルデータを第１のディープラーニングモデルに入力し、第１の出力結果を取得することと、上記第１の出力結果と、参照ディープラーニングモデルを利用して上記第１のサンプルデータを処理することにより取得された第１の目標出力結果に基づいて、上記第１のディープラーニングモデルをトレーニングし、トレーニングされた第１のディープラーニングモデルを取得することと、第２のサンプルデータを第２のディープラーニングモデルに入力し、第２の出力結果を取得することと、上記第２の出力結果と、上記トレーニングされた第１のディープラーニングモデルにより上記第２のサンプルデータを処理することにより取得された第２の目標出力結果に基づいて、上記第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得することと、を含むディープラーニングモデルのトレーニング方法を提供した。

第２の局面によれば、自然言語情報を本開示の提供する方法を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得することを含む自然言語処理方法を提供した。

第３の局面によれば、第１のサンプルデータを第１のディープラーニングモデルに入力し、第１の出力結果を取得するための第１の取得モジュールと、上記第１の出力結果と参照ディープラーニングモデルを利用して上記第１のサンプルデータを処理することにより取得された第１の目標出力結果に基づいて、上記第１のディープラーニングモデルをトレーニングし、トレーニングされた第１のディープラーニングモデルを取得するための第１のトレーニングモジュールと、第２のサンプルデータを第２のディープラーニングモデルに入力し、第２の出力結果を取得するための第２の取得モジュールと、上記第２の出力結果と上記トレーニングされた第１のディープラーニングモデルにより上記第２のサンプルデータを処理することにより取得された第２の目標出力結果に基づいて、上記第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得するための第２のトレーニングモジュールと、を含むディープラーニングモデルのトレーニング装置を提供した。

第４の局面によれば、自然言語情報を、本開示の提供する装置を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得するための第４の取得モジュールを含む自然言語処理装置を提供した。

第５の局面によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続するメモリとを含む電子機器であって、前記メモリに、前記少なくとも１つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが本開示の提供する方法を実行することができる電子機器を提供した。

第６の局面によれば、コンピュータに本開示の提供する方法を実行させるためのコンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体を提供した。

第７の局面によれば、プロセッサにより実行される時に本開示の提供する方法を実現するコンピュータプログラムを提供した。

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。図２は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。図３は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。図４は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法の原理図である。図５は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。図６は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。図７は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。図８は、本開示の一実施例に係る自然言語処理方法のフローチャートである。図９は、本開示の一実施例に係るディープラーニングモデルのトレーニング装置のブロック図である。図１０は、本開示の一実施例に係る自然言語処理装置のブロック図である。図１１は、本開示の一実施例に係るディープラーニングモデルのトレーニング及び／又は自然言語処理方法を適用した電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細が含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

知識蒸留技術を利用して、事前トレーニングモデルを蒸留圧縮してもよい。蒸留の過程において、事前トレーニングモデル又は大型モデル（以下「教師モデル」という）に対して前方推論演算を行い、次に別の小型モデル（以下「学生モデル」という）に教師モデルの出力結果をフィッティングさせてもよい。

教師モデルは、一般的に単一の複雑なネットワーク又は若干のネットワークの集合であり、良好な性能及び汎化能力を有する。学生モデルは、ネットワーク規模が小さく、表現能力が限られている。したがって、教師モデルにより学習された知識を利用して学生モデルトレーニングを指導してもよく、それにより学生モデルは教師モデルに相当する性能を有する。しかし学生モデルのパラメータ数が大幅に低下し、それによりモデル圧縮と加速を実現する。

知識蒸留はモデル能力を遷移し、遷移の具体的な方式により、目標に基づく蒸留（Ｓｏｆｔ－ｔａｒｇｅｔ蒸留とも呼ばれる）及び特徴に基づく蒸留に簡単に分けてもよい。例えば、分類モデルは、一つのＳｏｆｔｍａｘ層を含んでもよい。このＳｏｆｔｍａｘ層の出力値は、その相応的な種別の確率値に対応する。知識蒸留の時、汎化能力が強い教師モデルを既に有するため、教師モデルを利用して学生モデルを指導する場合、学生モデルに教師モデルの汎化能力を直接的に学習させてもよい。一例において、教師モデルのＳｏｆｔｍａｘ層から出力された種別確率を学生モデルの目標出力とする。

教師モデルを蒸留圧縮するコストは、該モデルのサイズにほぼ比例する。また、教師モデルの出力結果は、膨大になりすぎて記憶することができない可能性がある。したがって、教師モデルの蒸留圧縮過程は、学生モデルのトレーニングと同期してもよい。かつ、教師モデルのパラメータ数のオーダーは数百億であってもよく、教師モデルに対する蒸留圧縮操作は大量のハードウェアを必要として連続的に数百個の自然日の計算を行う必要がある。

また、教師モデルの表現能力が強くなりすぎる。学生モデルに教師モデルの出力結果を直接的にフィッティングさせる結果、学生モデルが多くの意味のないノイズを学習し、学生モデルのトレーニング効果が低下する。

図１は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。

図１に示すように、該方法１００は、操作Ｓ１１０～操作Ｓ１４０を含んでもよい。
操作Ｓ１１０において、第１のサンプルデータを第１のディープラーニングモデルに入力し、第１の出力結果を取得する。

本開示の実施例において、第１のディープラーニングモデルは、Ｎ個のネットワーク層を含んでもよい。

例えば、各ネットワーク層は、第１の注意力モジュールを含む。一例において、第１の出力結果は、Ｎ番目のネットワーク層の第１の注意力モジュールの出力であってもよい。

例えば、Ｎは１以上の整数である。一例では、Ｎ＝２４である。
例えば、第１のサンプルデータは、文字を含む画像であってもよい。一例において、第１のサンプルデータは、数字「８」を含む画像であってもよい。

例えば、第１の出力結果は、文字及び第１のサンプルデータが該文字である確率を含んでもよい。一例において、第１のサンプルデータは数字「８」を含む画像であってもよい。それに応じて、第１の出力結果は数字８及び数字８の確率６５％、数字３及び数字３の確率３０％、及び数字７及び数字７の確率５％であってもよい。

操作Ｓ１２０において、第１の出力結果及び第１の目標出力結果に基づいて、第１のディープラーニングモデルをトレーニングし、トレーニングされた第１のディープラーニングモデルを取得する。

本開示の実施例において、第１の目標出力結果は参照ディープラーニングモデルを利用して第１のサンプルデータを処理することにより取得される。

例えば、参照ディープラーニングモデルは、Ｋ個のネットワーク層を含んでもよい。一例において、参照ディープラーニングモデルは上記の教師モデルであってもよい。

例えば、Ｋは１以上の整数である。一例では、ＫはＮより大きい。一例では、Ｋ＝６０である。

例えば、Ｋ個のネットワーク層における各ネットワーク層は注意力モジュールを含む。一例において、第１の目標出力結果は、Ｋ番目のネットワーク層の注意力モジュールの出力であってもよい。一例において、第１のサンプルデータは数字「８」を含む画像であってもよい。それに応じて、第１の目標出力結果は数字８及び数字８の確率７５％、数字３及び数字３の確率２０％、及び数字７及び数字７の確率５％であってもよい。

例えば、第１のディープラーニングモデルのパラメータは参照ディープラーニングモデルにおけるパラメータより少ない。一例において、第１のディープラーニングモデルをティーチングアシスタントモデルとしてもよい。ティーチングアシスタントモデルのパラメータは、教師モデルのパラメータよりも少ない。

例えば、第１の出力結果が第１の目標出力結果と一致するように、第１のディープラーニングモデルにおけるパラメータを調整してもよい。

一例において、損失関数を利用して第１の出力結果と第１の目標出力結果との間の第１の差分を計算してもよい。第１の差分が予め設定された第１の差分閾値より小さい場合、第１の出力結果が第１の目標出力結果と一致するとしてもよい。

一例において、参照ディープラーニングモデルはトレーニングされたモデルであってもよい。参照ディープラーニングモデルをトレーニングする過程において、採用された損失関数は上記の第１の差分を計算する損失関数と一致してもよい。

操作Ｓ１３０において、第２のサンプルデータを第２のディープラーニングモデルに入力し、第２の出力結果を取得する。

例えば、第１のディープラーニングモデルのパラメータは第２のディープラーニングモデルのパラメータよりも多い。一例において、第２のディープラーニングモデルは上記の学生モデルであってもよい。

なお、少なくとも一つの第２のディープラーニングモデルを同時にトレーニングしてもよい。各第２のディープラーニングモデルのパラメータ数は異なってもよい。

本開示の実施例において、第２のディープラーニングモデルはＭ個のネットワーク層を含む。

例えば、各ネットワーク層は第２の注意力モジュールを含む。一例において、第２の出力結果はＭ番目のネットワーク層における第２の注意力モジュールの出力である。

例えば、Ｍは１以上の整数である。一例では、ＮはＭより大きい。一例では、Ｍ＝５である。別の例では、Ｍ＝６である。一例では、第２のディープラーニングモデルＳ１は６つのネットワーク層を含み、第２のディープラーニングモデルＳ２も６つのネットワーク層を含む。ただし、第２のディープラーニングモデルＳ１における各ネットワーク層におけるパラメータは、第２のディープラーニングモデルＳ２における各ネットワーク層におけるパラメータよりも多い。

例えば、第２のサンプルデータは文字を含む画像であってもよい。一例において、第２のサンプルデータは数字「８」を含む画像であってもよい。それに応じて、第２の出力結果は数字８及び数字８の確率５５％、数字３及び数字３の確率３２％、及び数字７及び数字７の確率１３％であってもよい。

操作Ｓ１４０において、第２の出力結果及び第２の目標出力結果に基づいて、第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得する。

本開示の実施例において、第２の目標出力結果はトレーニングされた第１のディープラーニングモデルにより第２のサンプルデータを処理することにより取得される。

例えば、第２の目標出力結果はＮ番目のネットワーク層における第１の注意力モジュールの出力である。一例において、第２の目標出力結果はトレーニングされた第１のディープラーニングモデルのＮ番目のネットワーク層における第１の注意力モジュールの出力であってもよい。一例において、第２の目標出力結果は第１の目標出力結果と一致してもよい。

例えば、第２の出力結果が第２の目標出力結果と一致するように、第２のディープラーニングモデルにおけるパラメータを調整してもよい。

一例において、損失関数を利用して第２の出力結果と第２の目標出力結果との間の第２の差分を計算してもよい。第２の差分が予め設定された第２の差分閾値より小さい場合、第２の出力結果が第２の目標出力結果と一致するとしてよい。

一例において、第２のディープラーニングモデルをトレーニングする過程において、採用された損失関数は上記の第１の差分を計算する損失関数と一致する。

本開示の実施例により、教師モデルと学生モデルとの間にティーチングアシスタントモデルを導入し、教師モデルと学生モデルとの間におけるパラメータの差による表現能力の差異を顕著に低減し、それにより教師モデルの予測能力を軽量化の学生モデルによりよく伝達することができる。

図２は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。

図２に示すように、方法２４０は、第２の出力結果及び第２の目標出力結果に基づいて、第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得し、以下に操作Ｓ２４１～操作Ｓ４３を参照して詳細に説明する。

本開示の実施例において、第２のディープラーニングモデルはＭ個のネットワーク層を含み、各ネットワーク層は順に接続された第２の注意力モジュール及びフィードフォワードモジュールを含む。

操作Ｓ２４１において、第２のディープラーニングモデルに付加ネットワーク層を設置する。

本開示の実施例において、付加ネットワーク層は順に接続された付加注意力モジュール及び付加フィードフォワードモジュールを含み、付加注意力モジュールはＭ番目のネットワーク層のフィードフォワードモジュールに接続される。

例えば、第２のディープラーニングモデルＳ３は、６つのネットワーク層を含み、それぞれネットワーク層Ｓ３＿Ｌ１～ネットワーク層Ｓ３＿Ｌ６である。各ネットワーク層は順に接続された第２の注意力モジュール及びフィードフォワードモジュールを含む。

ネットワーク層Ｓ３＿Ｌ１のフィードフォワードモジュールＳ３＿Ｌ１Ｆは、ネットワーク層Ｓ３＿Ｌ２の第２注意力モジュールＳ３＿Ｌ２Ａに接続されている。ネットワーク層Ｓ３＿Ｌ２の第２注意力モジュールＳ３＿Ｌ２Ａは、ネットワーク層Ｓ３＿Ｌ２のフィードフォワードモジュールＳ３＿Ｌ２Ｆに接続されている。ネットワーク層Ｓ３＿Ｌ２のフィードフォワードモジュールＳ３＿Ｌ２Ｆは、ネットワーク層Ｓ３＿Ｌ３の第２注意力モジュールＳ３＿Ｌ３Ａに接続されている。同様に、ネットワーク層Ｓ３＿Ｌ１からネットワーク層Ｓ３＿Ｌ６までの接続方式を決定することができる。

ネットワーク層Ｓ３＿Ｌ６のフィードフォワードモジュールＳ３＿Ｌ６Ｆは、付加注意力モジュールに接続されている。

操作Ｓ２４２において、付加注意力モジュールの出力がＮ番目のネットワーク層における注意力モジュールの出力と一致するように、第２のディープラーニングモデルにおけるパラメータを調整する。

例えば、損失関数を利用して付加注意力モジュールの出力とＮ番目のネットワーク層における注意力モジュールの出力との間の第３の差分を計算してもよい。第３の差分が予め設定された第３の差分閾値より小さい場合、付加注意力モジュールの出力はＮ番目のネットワーク層における注意力モジュールの出力と一致するとしてもよい。

一例において、第３の差分を計算する時に、採用された損失関数は上記の第１の差分を計算する損失関数と一致してもよい。

操作Ｓ４３において、付加ネットワーク層を削除し、トレーニングされた第２のディープラーニングモデルを取得する。

例えば、付加注意力モジュールの出力がＮ番目のネットワーク層における注意力モジュールの出力と一致した後、６つのネットワーク層を含む第２のディープラーニングモデルＳ３をトレーニングされた第２のディープラーニングモデルとしてもよい。

本開示の実施例により、学生モデルの最後のネットワーク層の後に、付加ネットワーク層を添加し、付加注意力モジュールの出力によりティーチングアシスタントモデルの最後の第２の注意力モジュールの出力に近づき、学生モデルにおける元の最後のネットワーク層のフィードフォワードモジュールを十分にトレーニングすることができる。さらに、教師モデルの予測能力は学生モデルの最後のフィードフォワードモジュールに伝達することができる。

図３は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。

図３に示すように、方法１００と異なる点は、該方法３００がさらに操作Ｓ３５０～操作Ｓ３６０を含むことである。操作Ｓ３５０は、上述した操作Ｓ２４０の後に実行されてもよい。

操作Ｓ３５０において、第３のサンプルデータをそれぞれ参照ディープラーニングモデル、トレーニングされた第１のディープラーニングモデル及びトレーニングされた第２のディープラーニングモデルに入力し、第１の出力、第２の出力及び第３の出力を取得する。

例えば、第３のサンプルデータは文字を含む画像であってもよい。
例えば、第３のサンプルデータは上記第１のサンプルデータと同じであってもよく、上記した第１のサンプルデータと異なってもよい。

操作Ｓ３６０において、第１の出力、第２の出力及び第３の出力が互いに一致するように、参照ディープラーニングモデル、トレーニングされた第１のディープラーニングモデル及びトレーニングされた第２のディープラーニングモデルを組み合わせてトレーニングする。

例えば、第１の出力、第２の出力及び第３の出力の間の差分が所定の閾値より小さいように、参照ディープラーニングモデル、トレーニングされた第１のディープラーニングモデル及びトレーニングされた第２のディープラーニングモデルのパラメータを組み合わせて調整してもよい。

本開示の実施例により、さらに第１のディープラーニングモデル及び第２のディープラーニングモデルをトレーニングすることにより、モデルの性能を向上させることができる。

図４は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法の原理図である。

図４に示すように、第１のディープラーニングモデル４１０は、Ｎ個のネットワーク層を含み、それぞれネットワーク層４１１、ネットワーク層４１２、ネットワーク層４１３、ネットワーク層４１４、……、ネットワーク層４１５である。

第２のディープラーニングモデル４２０はＭ個のネットワーク層を含み、それぞれネットワーク層４２１、ネットワーク層４２２、ネットワーク層４２３、ネットワーク層４２４、……、ネットワーク層４２５である。本実施例において、ＮはＭより大きい。

まず第１のディープラーニングモデル４１０をトレーニングしてもよい。例えば、第１のサンプルデータＳａｍｐｌｅ＿１４０１を第１のディープラーニングモデル４１０に入力し、Ｎ個のネットワーク層を利用して処理し、第１の出力結果Ａｓｓｉ＿Ａ４１５１を取得する。第１の出力結果Ａｓｓｉ＿Ａ４１５１と第１の目標出力結果ＴＴ＿Ａ４０５に基づいて、損失関数を利用して両者の間の第１の差分Ｄｉｆｆ＿１４０３を計算する。第１の差分Ｄｉｆｆ＿１４０３を用いて、第１のディープラーニングモデル４１０をトレーニングする。

一例において、第１のサンプルデータＳａｍｐｌｅ＿１４０１は数字「８」を含む画像であってもよい。第１の目標出力結果ＴＴ＿Ａ４０５は、（８，０．７５）、（３，０．２）及び（７，０．０５）であってもよい。例えば、（８，０．７５）は該第１のサンプルデータのＳａｍｐｌｅ＿１４０１が数字８であってもよく、かつ第１のサンプルデータのＳａｍｐｌｅ＿１４０１が数字８である確率が７５％であることを示す。第１の出力結果Ａｓｓｉ＿Ａ４１５１は、（８，０．６５）、（３，０．３）及び（７，０．０５）であってもよい。第１のディープラーニングモデル４１０をトレーニングすることにより、第１の出力結果Ａｓｓｉ＿Ａ４１５１を第１の目標出力結果ＴＴ＿Ａ４０５を近づける。

次に、第１の出力結果Ａｓｓｉ＿Ａ４１５１を第１の目標出力結果ＴＴ＿Ａ４０５と一致させた後、第２のディープラーニングモデル４２０をトレーニングしてもよい。

例えば、第２のサンプルデータＳａｍｐｌｅ＿２４０２を第２のディープラーニングモデル４２０に入力し、Ｍ個のネットワーク層を利用して処理し、第２の出力結果Ｓ＿Ａ４２５１を取得する。第２の出力結果Ｓ＿Ａ４２５１と第２の目標出力結果ＴＡｓｓｉ＿Ａ４１５２に基づいて、上記の損失関数を利用して両者の間の第２の差分Ｄｉｆｆ＿２４０４を計算する。第２の差分Ｄｉｆｆ＿２４０４を用いて、第２のディープラーニングモデル４２０をトレーニングする。第２の目標出力結果ＴＡｓｓｉ＿Ａ４１５２は、第２のサンプルデータＳａｍｐｌｅ＿２４０２をトレーニングされた第１のディープラーニングモデルに入力したものであってもよい。

一例では、第２のサンプルデータＳａｍｐｌｅ＿２４０２は数字「８」を含む画像であってもよい。第２の目標出力結果ＴＡｓｓｉ＿Ａ４１５２は、（８，０．７５）、（３，０．２）及び（７、０．０５）であってもよい。第２の出力結果Ｓ＿Ａ４２５１は、（８，０．５５）、（３，０．３２）及び（７，０．１３）であってもよい。第２のディープラーニングモデル４２０をトレーニングすることにより、第２の出力結果Ｓ＿Ａ４２５１を第２の目標出力結果ＴＡｓｓｉ＿Ａ４１５２に近づける。

図５は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。

図５に示すように、第１のディープラーニングモデル５１０はＮ個のネットワーク層を含み、それぞれネットワーク層Ａｓｓｉ＿Ｌ１５１１、ネットワーク層Ａｓｓｉ＿Ｌ２５１２、……、ネットワーク層Ａｓｓｉ＿ＬＮ５１３である。各ネットワーク層は第１の注意力モジュール及びフィードフォワードモジュールを含む。

第２のディープラーニングモデル５２０はＭ個のネットワーク層を含み、それぞれネットワーク層Ｓ＿Ｌ１５２１、……、ネットワーク層Ｓ＿ＬＭ５２２である。各ネットワーク層は第２の注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、ＮはＭより大きい。

参照ディープラーニングモデル５３０はＫ個のネットワーク層を含み、それぞれネットワーク層Ｔ＿Ｌ１５３１、ネットワーク層Ｔ＿Ｌ２５３２、……、ネットワーク層Ｔ＿ＬＫ５３３である。各ネットワーク層は注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、ＫはＮより大きい。

参照ディープラーニングモデル５３０は、トレーニングされたモデルであってもよい。第１の目標出力結果ＴＴ＿Ａ５３３１は、第１のサンプルデータＳａｍｐｌｅ＿１５０１を参照ディープラーニングモデル５３０に入力したものであってもよい。図５に示すように、第１の目標出力結果ＴＴ＿Ａ５３３１はネットワーク層Ｔ＿ＬＫ５３３の注意力モジュールの出力であってもよい。

まず第１のディープラーニングモデル５１０をトレーニングしてもよい。例えば、第１のサンプルデータＳａｍｐｌｅ＿１５０１を第１のディープラーニングモデル５１０に入力し、Ｎ個のネットワーク層を利用して処理し、第１の出力結果Ａｓｓｉ＿Ａ５１３１を取得する。図５に示すように、第１の出力結果Ａｓｓｉ＿Ａ５１３１はネットワーク層Ａｓｓｉ＿ＬＮ５１３の第１の注意力モジュールの出力であってもよい。第１の出力結果Ａｓｓｉ＿Ａ５１３１と第１の目標出力結果ＴＴ＿Ａ５３３１に基づいて、損失関数を利用して両者の間の第１の差分Ｄｉｆｆ＿１５０３を計算する。第１の差分Ｄｉｆｆ＿１５０３を用いて、第１のディープラーニングモデル５１０をトレーニングする。

次に、第１の出力結果Ａｓｓｉ＿Ａ５１３１を第１の目標出力結果ＴＴ＿Ａ５３３１と一致させた後、第２のディープラーニングモデル５２０をトレーニングしてもよい。

例えば、第２のサンプルデータＳａｍｐｌｅ＿２５０２を第２のディープラーニングモデル５２０に入力し、Ｍ個のネットワーク層を利用して処理し、第２の出力結果Ｓ＿Ａ５２２１を取得する。例えば、第２の出力結果Ｓ＿Ａ５２２１はネットワーク層Ｓ＿ＬＭ５２２の第２の注意力モジュールの出力であってもよい。第２の出力結果Ｓ＿Ａ５２２１と第２の目標出力結果ＴＡｓｓｉ＿Ａ５１３２に基づいて、上記の損失関数を利用して両者の間の第２の差分Ｄｉｆｆ＿２５０４を計算する。第２の差分Ｄｉｆｆ＿２５０４を用いて、第２のディープラーニングモデル５２０をトレーニングする。第２の目標出力結果ＴＡｓｓｉ＿Ａ５１３２は、第２のサンプルデータＳａｍｐｌｅ＿２５０２をトレーニングされた第１のディープラーニングモデルに入力したものであってもよい。

第１のサンプルデータＳａｍｐｌｅ＿１５０１は、上述した第１のサンプルデータＳａｍｐｌｅ＿１４０１を参照してもよい。第２のサンプルデータＳａｍｐｌｅ＿２５０２は、上述した第２のサンプルデータＳａｍｐｌｅ＿２を参照してもよい。第１の出力結果Ａｓｓｉ＿Ａ５１３１は、上述した第１の出力結果Ａｓｓｉ＿Ａ４１５１を参照してもよい。第１の目標出力結果ＴＴ＿Ａ５３３１は、上述した第１の目標出力結果ＴＴ＿Ａ４０５を参照してもよい。第２の出力結果Ｓ＿Ａ５２２１は、上述した第２の出力結果Ｓ＿Ａ４２５１を参照してもよい。第２の目標出力結果ＴＡｓｓｉ＿Ａ５１３２は、上述した第２の目標出力結果ＴＡｓｓｉ＿Ａ４１５２を参照してもよい。

図６は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。

図６に示すように、第１のディープラーニングモデル６１０はＮ個のネットワーク層を含み、それぞれネットワーク層Ａｓｓｉ＿Ｌ１６１１、ネットワーク層Ａｓｓｉ＿Ｌ２６１２、……、ネットワーク層Ａｓｓｉ＿ＬＮ６１３である。各ネットワーク層は第１の注意力モジュール及びフィードフォワードモジュールを含む。

第２のディープラーニングモデル６２０はＭ個のネットワーク層を含み、それぞれネットワーク層Ｓ＿Ｌ１６２１、……、ネットワーク層Ｓ＿ＬＭ６２２である。各ネットワーク層は第２の注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、ＮはＭより大きい。

参照ディープラーニングモデル６３０はＫ個のネットワーク層を含み、それぞれネットワーク層Ｔ＿Ｌ１６３１、ネットワーク層Ｔ＿Ｌ２６３２、……、ネットワーク層Ｔ＿ＬＫ６３３である。各ネットワーク層は注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、ＫはＮより大きい。

参照ディープラーニングモデル６３０は、トレーニングされたモデルであってもよい。第１の目標出力結果ＴＴ＿Ａ６３３１は、第１のサンプルデータＳａｍｐｌｅ＿１６０１を参照ディープラーニングモデル６３０に入力したものであってもよい。図６に示すように、第１の目標出力結果ＴＴ＿Ａ６３３１はネットワーク層Ｔ＿ＬＫ６３３の注意力モジュールの出力であってもよい。

まず、第１のディープラーニングモデル６１０をトレーニングするようにしてもよい。例えば、第１のサンプルデータＳａｍｐｌｅ＿１６０１を第１のディープラーニングモデル６１０に入力し、Ｎ個のネットワーク層を利用して処理し、第１の出力結果Ａｓｓｉ＿Ａ６１３１を取得する。図６に示すように、第１の出力結果Ａｓｓｉ＿Ａ６１３１はネットワーク層Ａｓｓｉ＿ＬＮ６１３の第１の注意力モジュールの出力であってもよい。第１の出力結果Ａｓｓｉ＿Ａ６１３１と第１の目標出力結果ＴＴ＿Ａ６３３１に基づいて、損失関数を利用して両者の間の第１の差分Ｄｉｆｆ＿１６０３を計算する。第１の差分Ｄｉｆｆ＿１６０３を用いて、第１のディープラーニングモデル６１０をトレーニングする。

次に、第１の出力結果Ａｓｓｉ＿Ａ６１３１を第１の目標出力結果ＴＴ＿Ａ６３３１と一致させた後、第２のディープラーニングモデル６２０をトレーニングしてもよい。

図６に示すように、図５と異なる点は、第２のディープラーニングモデル６２０をトレーニングする時に、第２のディープラーニングモデルに付加ネットワーク層Ｓ＿ＬＡｄｄ６２３を設置してもよいということである。付加ネットワーク層Ｓ＿ＬＡｄｄ６２３は順に接続された付加注意力モジュール及び付加フィードフォワードモジュールを含み、付加注意力モジュールはネットワーク層Ｓ＿ＬＭ６２２のフィードフォワードモジュールに接続される。

例えば、第２のディープラーニングモデル６２０をトレーニングする時に、第２のサンプルデータＳａｍｐｌｅ＿２６０２を第２のディープラーニングモデル６２０に入力し、付加注意力モジュールの出力Ｓ＿Ａ６２３１を取得してもよい。付加注意力モジュールの出力Ｓ＿Ａ６２３１と第２の目標出力結果ＴＡｓｓｉ＿Ａ６１３２に基づいて、上記の損失関数を利用して両者の間の第３の差分Ｄｉｆｆ＿３６０４を計算する。第３の差分Ｄｉｆｆ＿３６０４を利用して、第２のディープラーニングモデル６２０をトレーニングする。第２の目標出力結果ＴＡｓｓｉ＿Ａ６１３２は、第２のサンプルデータＳａｍｐｌｅ＿２６０２をトレーニングされた第１のディープラーニングモデルに入力したものであってもよい。

その後、付加注意力モジュールの出力Ｓ＿Ａ６２３１が第２の目標出力結果ＴＡｓｓｉ＿Ａ６１３２と一致した後、付加ネットワーク層６２３を削除し、トレーニングされた第２のディープラーニングモデルを取得してもよい。

第１のサンプルデータ（Ｓａｍｐｌｅ＿１６０１）は、上述した第１のサンプルデータ（Ｓａｍｐｌｅ＿１）４０１を参照してもよい。第２のサンプルデータＳａｍｐｌｅ＿２６０２は、上述した第２のサンプルデータＳａｍｐｌｅ＿２を参照してもよい。第１の出力結果Ａｓｓｉ＿Ａ６１３１は、上述した第１の出力結果Ａｓｓｉ＿Ａ４１５１を参照してもよい。第１の目標出力結果ＴＴ＿Ａ６３３１は、上述した第１の目標出力結果ＴＴ＿Ａ４０５を参照してもよい。付加注意力モジュールの出力Ｓ＿Ａ６２３１は、上述した第２の出力結果Ｓ＿Ａ４２５１を参照してもよい。第２の目標出力結果ＴＡｓｓｉ＿Ａ６１３２は、上述した第２の目標出力結果ＴＡｓｓｉ＿Ａ４１５２を参照してもよい。

図７は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。

図７に示すように、第１のディープラーニングモデル７１０はＮ個のネットワーク層を含み、それぞれネットワーク層７１１、ネットワーク層７１２、ネットワーク層７１３、ネットワーク層７１４、……、ネットワーク層７１５である。

第２のディープラーニングモデル７２０はＭ個のネットワーク層を含み、それぞれネットワーク層７２１、ネットワーク層７２２、ネットワーク層７２３、ネットワーク層７２４、……、ネットワーク層７２５である。本実施例において、ＮはＭより大きい。

参照ディープラーニングモデル７３０はＫ個のネットワーク層を含み、それぞれネットワーク層７３１、ネットワーク層７３２、ネットワーク層７３３、ネットワーク層７３４、ネットワーク層７３５、……、ネットワーク層７３６である。本実施例において、ＫはＭより大きい。

第３のサンプルデータｌ＿３７０１をそれぞれ参照ディープラーニングモデル７３０、トレーニングされた第１のディープラーニングモデル７１０及びトレーニングされた第２のディープラーニングモデル７２０に入力し、第１の出力Ｔ＿Ｆ７０２、第２の出力Ａｓｓｉ＿Ｆ７０３及び第３の出力Ｓ＿Ｆ７０４を取得してもよい。

次に、第１の出力Ｔ＿Ｆ７０２、第２の出力Ａｓｓｉ＿Ｆ７０３及び第３の出力Ｓ＿Ｆ７０４の間の差分が所定の閾値より小さいように、参照ディープラーニングモデル７３０、トレーニングされた第１のディープラーニングモデル７１０及びトレーニングされた第２のディープラーニングモデル７２０のパラメータを組み合わせて調整する。

なお、上記ネットワーク層はＴｒａｎｓｆｏｒｍｅｒモデルに基づいて構築されてもよい。

図８は、本開示の一実施例に係る自然言語処理方法のフローチャートである。
図８に示すように、該方法８００は操作８１０を含んでもよい。

操作Ｓ８１０において、自然言語情報をディープラーニングモデルに入力し、出力結果を取得する。

例えば、ディープラーニングモデルは本開示の実施例が提供する方法を利用してトレーニングされたものである。

例えば、上記第２のディープラーニングモデルを本実施例におけるディープラーニングモデルとしてもよい。一例において、上記の第２のディープラーニングモデル４２０、上記の第２のディープラーニングモデル５２０及び上記の第２のディープラーニングモデル７２０のうちのいずれか一つを本実施例におけるディープラーニングモデルとしてもよい。別の例において、上記の付加ネットワーク層Ｓ＿ＬＡｄｄ６２３を削除した第２のディープラーニングモデル６２０を本実施例におけるディープラーニングモデルとしてもよい。

図９は、本開示の一実施例に係るディープラーニングモデルのトレーニング装置のブロック図である。

図９に示すように、該装置９００は、第１の取得モジュール９１０、第１のトレーニングモジュール９２０、第２の取得モジュール９３０及び第２のトレーニングモジュール９４０を含んでもよい。

第１の取得モジュール９１０は、第１のサンプルデータを第１のディープラーニングモデルに入力し、第１の出力結果を取得するために用いられる。

第１のトレーニングモジュール９２０は、前記第１の出力結果及び第１の目標出力結果に基づいて、前記第１のディープラーニングモデルをトレーニングし、トレーニングされた第１のディープラーニングモデルを取得するために用いられる。前記第１の目標出力結果は参照ディープラーニングモデルを利用して前記第１のサンプルデータを処理することにより取得されるものである。

第２の取得モジュール９３０は、第２のサンプルデータを第２のディープラーニングモデルに入力し、第２の出力結果を取得するために用いられる。

第２のトレーニングモジュール９４０は、前記第２の出力結果と第２の目標出力結果に基づいて、前記第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得するために用いられる。前記第２の目標出力結果は前記トレーニングされた第１のディープラーニングモデルにより前記第２のサンプルデータを処理することにより取得されるものである。

いくつかの実施例において、前記第１のディープラーニングモデルにおけるパラメータは前記参照ディープラーニングモデルにおけるパラメータよりも少なく、かつ前記第２のディープラーニングモデルにおけるパラメータよりも多い。

いくつかの実施例において、前記第１のトレーニングモジュールは、前記第１の出力結果が前記第１の目標出力結果と一致するように、前記第１のディープラーニングモデルにおけるパラメータを調整するための第１の調整ユニットを含む。

いくつかの実施例において、前記第２のトレーニングモジュールは、前記第２の出力結果が前記第２の目標出力結果と一致するように、前記第２のディープラーニングモデルにおけるパラメータを調整するための第２の調整ユニットを含む。

いくつかの実施例において、前記第１のディープラーニングモデルはＮ個のネットワーク層を含み、各ネットワーク層は第１の注意力モジュールを含み、前記第２のディープラーニングモデルはＭ個のネットワーク層を含み、各ネットワーク層は第２の注意力モジュールを含み、Ｎ及びＭは１より大きい整数であり、かつＮはＭより大きい。前記第２の目標出力結果はＮ番目のネットワーク層における第１の注意力モジュールの出力であり、前記第２の出力結果はＭ番目のネットワーク層における第２の注意力モジュールの出力である。

いくつかの実施例において、前記第１のディープラーニングモデルはＮ個のネットワーク層を含み、各ネットワーク層は第１の注意力モジュールを含み、前記第２のディープラーニングモデルはＭ個のネットワーク層を含み、各ネットワーク層は順に接続された第２の注意力モジュール及びフィードフォワードモジュールを含み、Ｎ及びＭは１より大きい整数であり、かつＮはＭより大きい。前記第２のトレーニングモジュールは、前記第２のディープラーニングモデルに、順に接続された、Ｍ番目のネットワーク層のフィードフォワードモジュールに接続される付加注意力モジュールと付加フィードフォワードモジュールとを含む付加ネットワーク層を設置するための設置ユニットと、前記付加注意力モジュールの出力がＮ番目のネットワーク層における注意力モジュールの出力と一致するように、前記第２のディープラーニングモデルにおけるパラメータを調整するための第３の調整ユニットと、前記付加ネットワーク層を削除し、トレーニングされた第２のディープラーニングモデルを取得するための削除ユニットと、を含む。

いくつかの実施例において、装置９００は、第３のサンプルデータをそれぞれ前記参照ディープラーニングモデル、前記トレーニングされた第１のディープラーニングモデルと前記トレーニングされた第２のディープラーニングモデルに入力し、第１の出力、第２の出力及び第３の出力を取得するための第３の取得モジュールと、前記第１の出力、前記第２の出力及び前記第３の出力が互いに一致するように、前記参照ディープラーニングモデル、前記トレーニングされた第１のディープラーニングモデル及び前記トレーニングされた第２のディープラーニングモデルを組み合わせてトレーニングするための第３のトレーニングモジュールと、を更に含む。

図１０は、本開示の別の実施例に係る自然言語処理装置のブロック図である。
図１０に示すように、該装置１０００は第４の取得モジュール１０１０を含んでもよい。

第４の取得モジュール１０１０は、自然言語情報をディープラーニングモデルに入力し、出力結果を取得するために用いられる。

例えば、前記ディープラーニングモデルは本開示の提供する装置を利用してトレーニングされたものである。

本開示の技術案において、関するユーザ個人情報の採集、記憶、使用、加工、伝送、提供、開示及び適用等はいずれも相関法規則の規定に適合し、必要な秘密保守手段を行ない、かつ公序良俗に反するものではない。

本開示の技術案において、個人情報を取得するか採集する前に、いずれもユーザの許可又は同意を取得した。

本開示の実施例によれば、本開示は電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供した。

図１１は、本開示の実施例を実施することが可能な電子機器１１００の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを示す。電子機器は、さらに様々な形式の移動装置を示し、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置であってよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図１１に示すように、機器１１００は、リードオンリーメモリ（ＲＯＭ）１１０２に記憶されたコンピュータプログラム又は記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する演算ユニット１１０１を含んでもよい。ＲＡＭ１１０３には、さらに記憶機器１１００の操作に必要な様々なプログラム及びデータを記憶してもよい。演算ユニット１１０１、ＲＯＭ１１０２、およびＲＡＭ１１０３は、バス１１０４により相互に接続されている。バス１１０４には、入出力（Ｉ／Ｏ）インタフェース１１０５も接続されている。

機器１１００における複数の部品は、Ｉ／Ｏインタフェース１１０５に接続され、例えばキーボード、マウスなどの入力ユニット１１０６と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット１１０７と、例えば磁気ディスク、光ディスクなどの記憶ユニット１１０８と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１１０９とを含む。通信ユニット１１０９は、機器１１００がインターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報／データをやり取りすることを可能にする。

演算ユニット１１０１は、各種の処理、演算能力を有する汎用及び／又は専用の処理モジュールであってもよい。演算ユニット１１０１としては、中央処理ユニット（ＣＰＵ）、グラフィックス・プロセッシング・ユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムを実行する演算ユニット、デジタル信号機（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。演算ユニット１１０１は、上記説明した各方法及びステップを実行し、例えば、ディープラーニングモデルのトレーニング方法及び／又は自然言語処理方法である。例えば、いくつかの実施例において、ディープラーニングモデルのトレーニング方法及び／又は自然言語処理方法はコンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット１１０８に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ１１０２及び／又は通信ユニット１１０９を介して装置１１００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ１１０３にロードされかつ演算ユニット１１０１により実行される場合、上記ディープラーニングモデルのトレーニング方法及び／又は自然言語処理方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、演算ユニット１１０１は他の任意の適切な方式（例えば、ファームウェア）によりディープラーニングモデルのトレーニング方法及び／又は自然言語処理方法を実行するように構成されてもよい。

本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、チップ上システムのシステム（ＳＯＣ）、負荷プログラマブルロジック装置（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び／又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送してもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してもよい。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

第１のサンプルデータを第１のディープラーニングモデルに入力し、第１の出力結果を取得することと、
前記第１の出力結果と参照ディープラーニングモデルを利用して前記第１のサンプルデータを処理することにより取得された第１の目標出力結果に基づいて、前記第１のディープラーニングモデルをトレーニングし、トレーニングされた第１のディープラーニングモデルを取得することと、
第２のサンプルデータを第２のディープラーニングモデルに入力し、第２の出力結果を取得することと、
前記第２の出力結果と前記トレーニングされた第１のディープラーニングモデルにより前記第２のサンプルデータを処理することにより取得された第２の目標出力結果に基づいて、前記第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得することと、を含み、
前記第１のディープラーニングモデルはＮ個のネットワーク層を含み、各ネットワーク層は第１の注意力モジュールを含み、前記第２のディープラーニングモデルはＭ個のネットワーク層を含み、各ネットワーク層は第２の注意力モジュールを含み、Ｎ及びＭは１より大きい整数であり、かつＮはＭより大きく、
前記第２の目標出力結果は、Ｎ番目のネットワーク層における第１の注意力モジュールの出力であり、前記第２の出力結果は、Ｍ番目のネットワーク層における第２の注意力モジュールの出力である、
ディープラーニングモデルのトレーニング方法。
前記第１のディープラーニングモデルにおけるパラメータは、前記参照ディープラーニングモデルにおけるパラメータより少なく、かつ前記第２のディープラーニングモデルにおけるパラメータより多い、
請求項１に記載の方法。
前記第１の出力結果及び第１の目標出力結果に基づいて、前記第１のディープラーニングモデルをトレーニングし、トレーニングされた第１のディープラーニングモデルを取得することは、
前記第１の出力結果が前記第１の目標出力結果と一致するように、前記第１のディープラーニングモデルにおけるパラメータを調整することを含む、
請求項１または２に記載の方法。
前記第２の出力結果及び第２の目標出力結果に基づいて、前記第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得することは、
前記第２の出力結果が前記第２の目標出力結果と一致するように、前記第２のディープラーニングモデルにおけるパラメータを調整することを含む、
請求項１または２に記載の方法。
前記第１のディープラーニングモデルはＮ個のネットワーク層を含み、各ネットワーク層は第１の注意力モジュールを含み、前記第２のディープラーニングモデルはＭ個のネットワーク層を含み、各ネットワーク層は順に接続された第２の注意力モジュールとフィードフォワードモジュールを含み、Ｎ及びＭは１より大きい整数であり、かつＮはＭより大きく、
前記第２の出力結果及び第２の目標出力結果に基づいて、前記第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得することは、
前記第２のディープラーニングモデルに、順に接続された、Ｍ番目のネットワーク層のフィードフォワードモジュールに接続される付加注意力モジュールと付加フィードフォワードモジュールとを含む付加ネットワーク層を設置することと、
前記付加注意力モジュールの出力がＮ番目のネットワーク層における注意力モジュールの出力と一致するように、前記第２のディープラーニングモデルにおけるパラメータを調整することと、
前記付加ネットワーク層を削除し、トレーニングされた第２のディープラーニングモデルを取得することとを含む、
請求項１に記載の方法。
第３のサンプルデータをそれぞれ前記参照ディープラーニングモデル、前記トレーニングされた第１のディープラーニングモデルおよび前記トレーニングされた第２のディープラーニングモデルに入力し、第１の出力、第２の出力及び第３の出力を取得することと、
前記第１の出力、前記第２の出力及び前記第３の出力が互いに一致するように、前記参照ディープラーニングモデル、前記トレーニングされた第１のディープラーニングモデル及び前記トレーニングされた第２のディープラーニングモデルを組み合わせてトレーニングすることと、を更に含む、
請求項１に記載の方法。
自然言語情報を、請求項１に記載の方法を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得することを含む、
自然言語処理方法。
第１のサンプルデータを第１のディープラーニングモデルに入力し、第１の出力結果を取得するための第１の取得モジュールと、
前記第１の出力結果と、参照ディープラーニングモデルを利用して前記第１のサンプルデータを処理することにより取得された第１の目標出力結果とに基づいて、前記第１のディープラーニングモデルをトレーニングし、トレーニングされた第１のディープラーニングモデルを取得するための第１のトレーニングモジュールと、
第２のサンプルデータを第２のディープラーニングモデルに入力し、第２の出力結果を取得するための第２の取得モジュールと、
前記第２の出力結果と、前記トレーニングされた第１のディープラーニングモデルにより前記第２のサンプルデータを処理することにより取得された第２の目標出力結果とに基づいて、前記第２のディープラーニングモデルをトレーニングし、トレーニングされた第２のディープラーニングモデルを取得するための第２のトレーニングモジュールと、を含み、
前記第１のディープラーニングモデルはＮ個のネットワーク層を含み、各ネットワーク層は第１の注意力モジュールを含み、前記第２のディープラーニングモデルはＭ個のネットワーク層を含み、各ネットワーク層は第２の注意力モジュールを含み、Ｎ及びＭは１より大きい整数であり、かつＮはＭより大きく、
前記第２の目標出力結果は、Ｎ番目のネットワーク層における第１の注意力モジュールの出力であり、前記第２の出力結果は、Ｍ番目のネットワーク層における第２の注意力モジュールの出力である、
ディープラーニングモデルのトレーニング装置。
前記第１のディープラーニングモデルにおけるパラメータは、前記参照ディープラーニングモデルにおけるパラメータより少なく、かつ前記第２のディープラーニングモデルにおけるパラメータより多い、
請求項８に記載の装置。
前記第１のトレーニングモジュールは、
前記第１の出力結果が前記第１の目標出力結果と一致するように、前記第１のディープラーニングモデルにおけるパラメータを調整するための第１の調整ユニットを含む、
請求項８または９に記載の装置。
前記第２のトレーニングモジュールは、
前記第２の出力結果が前記第２の目標出力結果と一致するように、前記第２のディープラーニングモデルにおけるパラメータを調整するための第２の調整ユニットを含む、
請求項８または９に記載の装置。
前記第１のディープラーニングモデルはＮ個のネットワーク層を含み、各ネットワーク層は第１の注意力モジュールを含み、前記第２のディープラーニングモデルはＭ個のネットワーク層を含み、各ネットワーク層は順に接続された第２の注意力モジュールとフィードフォワードモジュールを含み、Ｎ及びＭは１より大きい整数であり、かつＮはＭより大きく、
前記第２のトレーニングモジュールは、
前記第２のディープラーニングモデルに、順に接続された、Ｍ番目のネットワーク層のフィードフォワードモジュールに接続される付加注意力モジュールと付加フィードフォワードモジュールとを含む付加ネットワーク層を設置するための設置ユニットと、
前記付加注意力モジュールの出力がＮ番目のネットワーク層における注意力モジュールの出力と一致するように、前記第２のディープラーニングモデルにおけるパラメータを調整するための第３の調整ユニットと、
前記付加ネットワーク層を削除し、トレーニングされた第２のディープラーニングモデルを取得するための削除ユニットと、を含む、
請求項８に記載の装置。
第３のサンプルデータをそれぞれ前記参照ディープラーニングモデル、前記トレーニングされた第１のディープラーニングモデル及び前記トレーニングされた第２のディープラーニングモデルに入力し、第１の出力、第２の出力及び第３の出力を取得するための第３の取得モジュールと、
前記第１の出力、前記第２の出力及び前記第３の出力が互いに一致するように、前記参照ディープラーニングモデル、前記トレーニングされた第１のディープラーニングモデル及び前記トレーニングされた第２のディープラーニングモデルを組み合わせてトレーニングするための第３のトレーニングモジュールと、を更に含む
請求項８に記載の装置。
自然言語情報を、請求項８に記載の装置を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得するための第４の取得モジュールを含む、
自然言語処理装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続するメモリとを含み、
前記メモリに、前記少なくとも１つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが請求項１に記載の方法を実行することができる、
電子機器。
コンピュータに請求項１に記載の方法を実行させるためのコンピュータ命令を記憶している、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行される時に請求項１に記載の方法を実現する、コンピュータプログラム。