JP7438303B2 - ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7438303B2
JP7438303B2 JP2022156162A JP2022156162A JP7438303B2 JP 7438303 B2 JP7438303 B2 JP 7438303B2 JP 2022156162 A JP2022156162 A JP 2022156162A JP 2022156162 A JP2022156162 A JP 2022156162A JP 7438303 B2 JP7438303 B2 JP 7438303B2
Authority
JP
Japan
Prior art keywords
deep learning
learning model
output result
network layer
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022156162A
Other languages
English (en)
Other versions
JP2022173453A (ja
Inventor
徐 屹 陳
▲ウェイ▼ 新 劉
宇 翔 盧
佳 祥 劉
世 維 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022173453A publication Critical patent/JP2022173453A/ja
Application granted granted Critical
Publication of JP7438303B2 publication Critical patent/JP7438303B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Description

本開示は、人工知能技術分野に関し、特にディープラーニング技術及び自然言語処理技術に関する。より具体的には、本開示は、ディープラーニングモデルのトレーニング方法、自然言語処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
事前トレーニングモデルのパラメータ数を増加させて、モデルの性能を向上させることができる。生産環境において、事前トレーニングモデルに蒸留圧縮を行うことにより、計算量を減少することができる。
本発明は、ディープラーニングモデルのトレーニング方法、自然言語処理方法、装置、機器、記憶媒体及びコンピュータプログラムを提供した。
第1の局面によれば、第1のサンプルデータを第1のディープラーニングモデルに入力し、第1の出力結果を取得することと、上記第1の出力結果と、参照ディープラーニングモデルを利用して上記第1のサンプルデータを処理することにより取得された第1の目標出力結果に基づいて、上記第1のディープラーニングモデルをトレーニングし、トレーニングされた第1のディープラーニングモデルを取得することと、第2のサンプルデータを第2のディープラーニングモデルに入力し、第2の出力結果を取得することと、上記第2の出力結果と、上記トレーニングされた第1のディープラーニングモデルにより上記第2のサンプルデータを処理することにより取得された第2の目標出力結果に基づいて、上記第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得することと、を含むディープラーニングモデルのトレーニング方法を提供した。
第2の局面によれば、自然言語情報を本開示の提供する方法を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得することを含む自然言語処理方法を提供した。
第3の局面によれば、第1のサンプルデータを第1のディープラーニングモデルに入力し、第1の出力結果を取得するための第1の取得モジュールと、上記第1の出力結果と参照ディープラーニングモデルを利用して上記第1のサンプルデータを処理することにより取得された第1の目標出力結果に基づいて、上記第1のディープラーニングモデルをトレーニングし、トレーニングされた第1のディープラーニングモデルを取得するための第1のトレーニングモジュールと、第2のサンプルデータを第2のディープラーニングモデルに入力し、第2の出力結果を取得するための第2の取得モジュールと、上記第2の出力結果と上記トレーニングされた第1のディープラーニングモデルにより上記第2のサンプルデータを処理することにより取得された第2の目標出力結果に基づいて、上記第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得するための第2のトレーニングモジュールと、を含むディープラーニングモデルのトレーニング装置を提供した。
第4の局面によれば、自然言語情報を、本開示の提供する装置を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得するための第4の取得モジュールを含む自然言語処理装置を提供した。
第5の局面によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続するメモリとを含む電子機器であって、前記メモリに、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが本開示の提供する方法を実行することができる電子機器を提供した。
第6の局面によれば、コンピュータに本開示の提供する方法を実行させるためのコンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体を提供した。
第7の局面によれば、プロセッサにより実行される時に本開示の提供する方法を実現するコンピュータプログラムを提供した。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。 図2は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。 図3は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。 図4は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法の原理図である。 図5は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。 図6は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。 図7は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。 図8は、本開示の一実施例に係る自然言語処理方法のフローチャートである。 図9は、本開示の一実施例に係るディープラーニングモデルのトレーニング装置のブロック図である。 図10は、本開示の一実施例に係る自然言語処理装置のブロック図である。 図11は、本開示の一実施例に係るディープラーニングモデルのトレーニング及び/又は自然言語処理方法を適用した電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細が含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
知識蒸留技術を利用して、事前トレーニングモデルを蒸留圧縮してもよい。蒸留の過程において、事前トレーニングモデル又は大型モデル(以下「教師モデル」という)に対して前方推論演算を行い、次に別の小型モデル(以下「学生モデル」という)に教師モデルの出力結果をフィッティングさせてもよい。
教師モデルは、一般的に単一の複雑なネットワーク又は若干のネットワークの集合であり、良好な性能及び汎化能力を有する。学生モデルは、ネットワーク規模が小さく、表現能力が限られている。したがって、教師モデルにより学習された知識を利用して学生モデルトレーニングを指導してもよく、それにより学生モデルは教師モデルに相当する性能を有する。しかし学生モデルのパラメータ数が大幅に低下し、それによりモデル圧縮と加速を実現する。
知識蒸留はモデル能力を遷移し、遷移の具体的な方式により、目標に基づく蒸留(Soft-target蒸留とも呼ばれる)及び特徴に基づく蒸留に簡単に分けてもよい。例えば、分類モデルは、一つのSoftmax層を含んでもよい。このSoftmax層の出力値は、その相応的な種別の確率値に対応する。知識蒸留の時、汎化能力が強い教師モデルを既に有するため、教師モデルを利用して学生モデルを指導する場合、学生モデルに教師モデルの汎化能力を直接的に学習させてもよい。一例において、教師モデルのSoftmax層から出力された種別確率を学生モデルの目標出力とする。
教師モデルを蒸留圧縮するコストは、該モデルのサイズにほぼ比例する。また、教師モデルの出力結果は、膨大になりすぎて記憶することができない可能性がある。したがって、教師モデルの蒸留圧縮過程は、学生モデルのトレーニングと同期してもよい。かつ、教師モデルのパラメータ数のオーダーは数百億であってもよく、教師モデルに対する蒸留圧縮操作は大量のハードウェアを必要として連続的に数百個の自然日の計算を行う必要がある。
また、教師モデルの表現能力が強くなりすぎる。学生モデルに教師モデルの出力結果を直接的にフィッティングさせる結果、学生モデルが多くの意味のないノイズを学習し、学生モデルのトレーニング効果が低下する。
図1は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。
図1に示すように、該方法100は、操作S110~操作S140を含んでもよい。
操作S110において、第1のサンプルデータを第1のディープラーニングモデルに入力し、第1の出力結果を取得する。
本開示の実施例において、第1のディープラーニングモデルは、N個のネットワーク層を含んでもよい。
例えば、各ネットワーク層は、第1の注意力モジュールを含む。一例において、第1の出力結果は、N番目のネットワーク層の第1の注意力モジュールの出力であってもよい。
例えば、Nは1以上の整数である。一例では、N=24である。
例えば、第1のサンプルデータは、文字を含む画像であってもよい。一例において、第1のサンプルデータは、数字「8」を含む画像であってもよい。
例えば、第1の出力結果は、文字及び第1のサンプルデータが該文字である確率を含んでもよい。一例において、第1のサンプルデータは数字「8」を含む画像であってもよい。それに応じて、第1の出力結果は数字8及び数字8の確率65%、数字3及び数字3の確率30%、及び数字7及び数字7の確率5%であってもよい。
操作S120において、第1の出力結果及び第1の目標出力結果に基づいて、第1のディープラーニングモデルをトレーニングし、トレーニングされた第1のディープラーニングモデルを取得する。
本開示の実施例において、第1の目標出力結果は参照ディープラーニングモデルを利用して第1のサンプルデータを処理することにより取得される。
例えば、参照ディープラーニングモデルは、K個のネットワーク層を含んでもよい。一例において、参照ディープラーニングモデルは上記の教師モデルであってもよい。
例えば、Kは1以上の整数である。一例では、KはNより大きい。一例では、K=60である。
例えば、K個のネットワーク層における各ネットワーク層は注意力モジュールを含む。一例において、第1の目標出力結果は、K番目のネットワーク層の注意力モジュールの出力であってもよい。一例において、第1のサンプルデータは数字「8」を含む画像であってもよい。それに応じて、第1の目標出力結果は数字8及び数字8の確率75%、数字3及び数字3の確率20%、及び数字7及び数字7の確率5%であってもよい。
例えば、第1のディープラーニングモデルのパラメータは参照ディープラーニングモデルにおけるパラメータより少ない。一例において、第1のディープラーニングモデルをティーチングアシスタントモデルとしてもよい。ティーチングアシスタントモデルのパラメータは、教師モデルのパラメータよりも少ない。
例えば、第1の出力結果が第1の目標出力結果と一致するように、第1のディープラーニングモデルにおけるパラメータを調整してもよい。
一例において、損失関数を利用して第1の出力結果と第1の目標出力結果との間の第1の差分を計算してもよい。第1の差分が予め設定された第1の差分閾値より小さい場合、第1の出力結果が第1の目標出力結果と一致するとしてもよい。
一例において、参照ディープラーニングモデルはトレーニングされたモデルであってもよい。参照ディープラーニングモデルをトレーニングする過程において、採用された損失関数は上記の第1の差分を計算する損失関数と一致してもよい。
操作S130において、第2のサンプルデータを第2のディープラーニングモデルに入力し、第2の出力結果を取得する。
例えば、第1のディープラーニングモデルのパラメータは第2のディープラーニングモデルのパラメータよりも多い。一例において、第2のディープラーニングモデルは上記の学生モデルであってもよい。
なお、少なくとも一つの第2のディープラーニングモデルを同時にトレーニングしてもよい。各第2のディープラーニングモデルのパラメータ数は異なってもよい。
本開示の実施例において、第2のディープラーニングモデルはM個のネットワーク層を含む。
例えば、各ネットワーク層は第2の注意力モジュールを含む。一例において、第2の出力結果はM番目のネットワーク層における第2の注意力モジュールの出力である。
例えば、Mは1以上の整数である。一例では、NはMより大きい。一例では、M=5である。別の例では、M=6である。一例では、第2のディープラーニングモデルS1は6つのネットワーク層を含み、第2のディープラーニングモデルS2も6つのネットワーク層を含む。ただし、第2のディープラーニングモデルS1における各ネットワーク層におけるパラメータは、第2のディープラーニングモデルS2における各ネットワーク層におけるパラメータよりも多い。
例えば、第2のサンプルデータは文字を含む画像であってもよい。一例において、第2のサンプルデータは数字「8」を含む画像であってもよい。それに応じて、第2の出力結果は数字8及び数字8の確率55%、数字3及び数字3の確率32%、及び数字7及び数字7の確率13%であってもよい。
操作S140において、第2の出力結果及び第2の目標出力結果に基づいて、第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得する。
本開示の実施例において、第2の目標出力結果はトレーニングされた第1のディープラーニングモデルにより第2のサンプルデータを処理することにより取得される。
例えば、第2の目標出力結果はN番目のネットワーク層における第1の注意力モジュールの出力である。一例において、第2の目標出力結果はトレーニングされた第1のディープラーニングモデルのN番目のネットワーク層における第1の注意力モジュールの出力であってもよい。一例において、第2の目標出力結果は第1の目標出力結果と一致してもよい。
例えば、第2の出力結果が第2の目標出力結果と一致するように、第2のディープラーニングモデルにおけるパラメータを調整してもよい。
一例において、損失関数を利用して第2の出力結果と第2の目標出力結果との間の第2の差分を計算してもよい。第2の差分が予め設定された第2の差分閾値より小さい場合、第2の出力結果が第2の目標出力結果と一致するとしてよい。
一例において、第2のディープラーニングモデルをトレーニングする過程において、採用された損失関数は上記の第1の差分を計算する損失関数と一致する。
本開示の実施例により、教師モデルと学生モデルとの間にティーチングアシスタントモデルを導入し、教師モデルと学生モデルとの間におけるパラメータの差による表現能力の差異を顕著に低減し、それにより教師モデルの予測能力を軽量化の学生モデルによりよく伝達することができる。
図2は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。
図2に示すように、方法240は、第2の出力結果及び第2の目標出力結果に基づいて、第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得し、以下に操作S241~操作S43を参照して詳細に説明する。
本開示の実施例において、第2のディープラーニングモデルはM個のネットワーク層を含み、各ネットワーク層は順に接続された第2の注意力モジュール及びフィードフォワードモジュールを含む。
操作S241において、第2のディープラーニングモデルに付加ネットワーク層を設置する。
本開示の実施例において、付加ネットワーク層は順に接続された付加注意力モジュール及び付加フィードフォワードモジュールを含み、付加注意力モジュールはM番目のネットワーク層のフィードフォワードモジュールに接続される。
例えば、第2のディープラーニングモデルS3は、6つのネットワーク層を含み、それぞれネットワーク層S3_L1~ネットワーク層S3_L6である。各ネットワーク層は順に接続された第2の注意力モジュール及びフィードフォワードモジュールを含む。
ネットワーク層S3_L1のフィードフォワードモジュールS3_L1Fは、ネットワーク層S3_L2の第2注意力モジュールS3_L2Aに接続されている。ネットワーク層S3_L2の第2注意力モジュールS3_L2Aは、ネットワーク層S3_L2のフィードフォワードモジュールS3_L2Fに接続されている。ネットワーク層S3_L2のフィードフォワードモジュールS3_L2Fは、ネットワーク層S3_L3の第2注意力モジュールS3_L3 Aに接続されている。同様に、ネットワーク層S3_L1からネットワーク層S3_L6までの接続方式を決定することができる。
ネットワーク層S3_L6のフィードフォワードモジュールS3_L6Fは、付加注意力モジュールに接続されている。
操作S242において、付加注意力モジュールの出力がN番目のネットワーク層における注意力モジュールの出力と一致するように、第2のディープラーニングモデルにおけるパラメータを調整する。
例えば、損失関数を利用して付加注意力モジュールの出力とN番目のネットワーク層における注意力モジュールの出力との間の第3の差分を計算してもよい。第3の差分が予め設定された第3の差分閾値より小さい場合、付加注意力モジュールの出力はN番目のネットワーク層における注意力モジュールの出力と一致するとしてもよい。
一例において、第3の差分を計算する時に、採用された損失関数は上記の第1の差分を計算する損失関数と一致してもよい。
操作S43において、付加ネットワーク層を削除し、トレーニングされた第2のディープラーニングモデルを取得する。
例えば、付加注意力モジュールの出力がN番目のネットワーク層における注意力モジュールの出力と一致した後、6つのネットワーク層を含む第2のディープラーニングモデルS3をトレーニングされた第2のディープラーニングモデルとしてもよい。
本開示の実施例により、学生モデルの最後のネットワーク層の後に、付加ネットワーク層を添加し、付加注意力モジュールの出力によりティーチングアシスタントモデルの最後の第2の注意力モジュールの出力に近づき、学生モデルにおける元の最後のネットワーク層のフィードフォワードモジュールを十分にトレーニングすることができる。さらに、教師モデルの予測能力は学生モデルの最後のフィードフォワードモジュールに伝達することができる。
図3は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。
図3に示すように、方法100と異なる点は、該方法300がさらに操作S350~操作S360を含むことである。操作S350は、上述した操作S240の後に実行されてもよい。
操作S350において、第3のサンプルデータをそれぞれ参照ディープラーニングモデル、トレーニングされた第1のディープラーニングモデル及びトレーニングされた第2のディープラーニングモデルに入力し、第1の出力、第2の出力及び第3の出力を取得する。
例えば、第3のサンプルデータは文字を含む画像であってもよい。
例えば、第3のサンプルデータは上記第1のサンプルデータと同じであってもよく、上記した第1のサンプルデータと異なってもよい。
操作S360において、第1の出力、第2の出力及び第3の出力が互いに一致するように、参照ディープラーニングモデル、トレーニングされた第1のディープラーニングモデル及びトレーニングされた第2のディープラーニングモデルを組み合わせてトレーニングする。
例えば、第1の出力、第2の出力及び第3の出力の間の差分が所定の閾値より小さいように、参照ディープラーニングモデル、トレーニングされた第1のディープラーニングモデル及びトレーニングされた第2のディープラーニングモデルのパラメータを組み合わせて調整してもよい。
本開示の実施例により、さらに第1のディープラーニングモデル及び第2のディープラーニングモデルをトレーニングすることにより、モデルの性能を向上させることができる。
図4は、本開示の一実施例に係るディープラーニングモデルのトレーニング方法の原理図である。
図4に示すように、第1のディープラーニングモデル410は、N個のネットワーク層を含み、それぞれネットワーク層411、ネットワーク層412、ネットワーク層413、ネットワーク層414、……、ネットワーク層415である。
第2のディープラーニングモデル420はM個のネットワーク層を含み、それぞれネットワーク層421、ネットワーク層422、ネットワーク層423、ネットワーク層424、……、ネットワーク層425である。本実施例において、NはMより大きい。
まず第1のディープラーニングモデル410をトレーニングしてもよい。例えば、第1のサンプルデータSample_1 401を第1のディープラーニングモデル410に入力し、N個のネットワーク層を利用して処理し、第1の出力結果Assi_A 4151を取得する。第1の出力結果Assi_A 4151と第1の目標出力結果TT_A 405に基づいて、損失関数を利用して両者の間の第1の差分Diff_1 403を計算する。第1の差分Diff_1 403を用いて、第1のディープラーニングモデル410をトレーニングする。
一例において、第1のサンプルデータSample_1 401は数字「8」を含む画像であってもよい。第1の目標出力結果TT_A 405は、(8,0.75)、(3,0.2)及び(7,0.05)であってもよい。例えば、(8,0.75)は該第1のサンプルデータのSample_1 401が数字8であってもよく、かつ第1のサンプルデータのSample_1 401が数字8である確率が75%であることを示す。第1の出力結果Assi_A 4151は、(8,0.65)、(3,0.3)及び(7,0.05)であってもよい。第1のディープラーニングモデル410をトレーニングすることにより、第1の出力結果Assi_A 4151を第1の目標出力結果TT_A 405を近づける。
次に、第1の出力結果Assi_A 4151を第1の目標出力結果TT_A 405と一致させた後、第2のディープラーニングモデル420をトレーニングしてもよい。
例えば、第2のサンプルデータSample_2 402を第2のディープラーニングモデル420に入力し、M個のネットワーク層を利用して処理し、第2の出力結果S_A 4251を取得する。第2の出力結果S_A 4251と第2の目標出力結果TAssi_A 4152に基づいて、上記の損失関数を利用して両者の間の第2の差分Diff_2 404を計算する。第2の差分Diff_2 404を用いて、第2のディープラーニングモデル420をトレーニングする。第2の目標出力結果TAssi_A 4152は、第2のサンプルデータSample_2 402をトレーニングされた第1のディープラーニングモデルに入力したものであってもよい。
一例では、第2のサンプルデータSample_2 402は数字「8」を含む画像であってもよい。第2の目標出力結果TAssi_A 4152は、(8,0.75)、(3,0.2)及び(7、0.05)であってもよい。第2の出力結果S_A 4251は、(8,0.55)、(3,0.32)及び(7,0.13)であってもよい。第2のディープラーニングモデル420をトレーニングすることにより、第2の出力結果S_A 4251を第2の目標出力結果TAssi_A 4152に近づける。
図5は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。
図5に示すように、第1のディープラーニングモデル510はN個のネットワーク層を含み、それぞれネットワーク層Assi_L1 511、ネットワーク層Assi_L2 512、……、ネットワーク層Assi_LN 513である。各ネットワーク層は第1の注意力モジュール及びフィードフォワードモジュールを含む。
第2のディープラーニングモデル520はM個のネットワーク層を含み、それぞれネットワーク層S_L1 521、……、ネットワーク層S_LM 522である。各ネットワーク層は第2の注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、NはMより大きい。
参照ディープラーニングモデル530はK個のネットワーク層を含み、それぞれネットワーク層T_L1 531、ネットワーク層T_L2 532、……、ネットワーク層T_LK 533である。各ネットワーク層は注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、KはNより大きい。
参照ディープラーニングモデル530は、トレーニングされたモデルであってもよい。第1の目標出力結果TT_A 5331は、第1のサンプルデータSample_1 501を参照ディープラーニングモデル530に入力したものであってもよい。図5に示すように、第1の目標出力結果TT_A 5331はネットワーク層T_LK 533の注意力モジュールの出力であってもよい。
まず第1のディープラーニングモデル510をトレーニングしてもよい。例えば、第1のサンプルデータSample_1 501を第1のディープラーニングモデル510に入力し、N個のネットワーク層を利用して処理し、第1の出力結果Assi_A 5131を取得する。図5に示すように、第1の出力結果Assi_A 5131はネットワーク層Assi_LN 513の第1の注意力モジュールの出力であってもよい。第1の出力結果Assi_A 5131と第1の目標出力結果TT_A 5331に基づいて、損失関数を利用して両者の間の第1の差分Diff_1 503を計算する。第1の差分Diff_1 503を用いて、第1のディープラーニングモデル510をトレーニングする。
次に、第1の出力結果Assi_A 5131を第1の目標出力結果TT_A 5331と一致させた後、第2のディープラーニングモデル520をトレーニングしてもよい。
例えば、第2のサンプルデータSample_2 502を第2のディープラーニングモデル520に入力し、M個のネットワーク層を利用して処理し、第2の出力結果S_A 5221を取得する。例えば、第2の出力結果S_A 5221はネットワーク層S_LM 522の第2の注意力モジュールの出力であってもよい。第2の出力結果S_A 5221と第2の目標出力結果TAssi_A 5132に基づいて、上記の損失関数を利用して両者の間の第2の差分Diff_2 504を計算する。第2の差分Diff_2 504を用いて、第2のディープラーニングモデル520をトレーニングする。第2の目標出力結果TAssi_A 5132は、第2のサンプルデータSample_2 502をトレーニングされた第1のディープラーニングモデルに入力したものであってもよい。
第1のサンプルデータSample_1 501は、上述した第1のサンプルデータSample_1 401を参照してもよい。第2のサンプルデータSample_2 502は、上述した第2のサンプルデータSample_2を参照してもよい。第1の出力結果Assi_A 5131は、上述した第1の出力結果Assi_A 4151を参照してもよい。第1の目標出力結果TT_A 5331は、上述した第1の目標出力結果TT_A 405を参照してもよい。第2の出力結果S_A 5221は、上述した第2の出力結果S_A 4251を参照してもよい。第2の目標出力結果TAssi_A 5132は、上述した第2の目標出力結果TAssi_A 4152を参照してもよい。
図6は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。
図6に示すように、第1のディープラーニングモデル610はN個のネットワーク層を含み、それぞれネットワーク層Assi_L1 611、ネットワーク層Assi_L2 612、……、ネットワーク層Assi_LN 613である。各ネットワーク層は第1の注意力モジュール及びフィードフォワードモジュールを含む。
第2のディープラーニングモデル620はM個のネットワーク層を含み、それぞれネットワーク層S_L1 621、……、ネットワーク層S_LM 622である。各ネットワーク層は第2の注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、NはMより大きい。
参照ディープラーニングモデル630はK個のネットワーク層を含み、それぞれネットワーク層T_L1 631、ネットワーク層T_L2 632、……、ネットワーク層T_LK 633である。各ネットワーク層は注意力モジュール及びフィードフォワードモジュールを含む。本実施例において、KはNより大きい。
参照ディープラーニングモデル630は、トレーニングされたモデルであってもよい。第1の目標出力結果TT_A 6331は、第1のサンプルデータSample_1 601を参照ディープラーニングモデル630に入力したものであってもよい。図6に示すように、第1の目標出力結果TT_A 6331はネットワーク層T_LK 633の注意力モジュールの出力であってもよい。
まず、第1のディープラーニングモデル610をトレーニングするようにしてもよい。例えば、第1のサンプルデータSample_1 601を第1のディープラーニングモデル610に入力し、N個のネットワーク層を利用して処理し、第1の出力結果Assi_A 6131を取得する。図6に示すように、第1の出力結果Assi_A 6131はネットワーク層Assi_LN 613の第1の注意力モジュールの出力であってもよい。第1の出力結果Assi_A 6131と第1の目標出力結果TT_A 6331に基づいて、損失関数を利用して両者の間の第1の差分Diff_1 603を計算する。第1の差分Diff_1 603を用いて、第1のディープラーニングモデル610をトレーニングする。
次に、第1の出力結果Assi_A 6131を第1の目標出力結果TT_A 6331と一致させた後、第2のディープラーニングモデル620をトレーニングしてもよい。
図6に示すように、図5と異なる点は、第2のディープラーニングモデル620をトレーニングする時に、第2のディープラーニングモデルに付加ネットワーク層S_LAdd 623を設置してもよいということである。付加ネットワーク層S_LAdd 623は順に接続された付加注意力モジュール及び付加フィードフォワードモジュールを含み、付加注意力モジュールはネットワーク層S_LM 622のフィードフォワードモジュールに接続される。
例えば、第2のディープラーニングモデル620をトレーニングする時に、第2のサンプルデータSample_2 602を第2のディープラーニングモデル620に入力し、付加注意力モジュールの出力S_A 6231を取得してもよい。付加注意力モジュールの出力S_A 6231と第2の目標出力結果TAssi_A 6132に基づいて、上記の損失関数を利用して両者の間の第3の差分Diff_3 604を計算する。第3の差分Diff_3 604を利用して、第2のディープラーニングモデル620をトレーニングする。第2の目標出力結果TAssi_A 6132は、第2のサンプルデータSample_2 602をトレーニングされた第1のディープラーニングモデルに入力したものであってもよい。
その後、付加注意力モジュールの出力S_A 6231が第2の目標出力結果TAssi_A 6132と一致した後、付加ネットワーク層623を削除し、トレーニングされた第2のディープラーニングモデルを取得してもよい。
第1のサンプルデータ(Sample_1 601)は、上述した第1のサンプルデータ(Sample_1)401を参照してもよい。第2のサンプルデータSample_2 602は、上述した第2のサンプルデータSample_2を参照してもよい。第1の出力結果Assi_A 6131は、上述した第1の出力結果Assi_A 4151を参照してもよい。第1の目標出力結果TT_A 6331は、上述した第1の目標出力結果TT_A 405を参照してもよい。付加注意力モジュールの出力S_A 6231は、上述した第2の出力結果S_A 4251を参照してもよい。第2の目標出力結果TAssi_A 6132は、上述した第2の目標出力結果TAssi_A 4152を参照してもよい。
図7は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法の原理図である。
図7に示すように、第1のディープラーニングモデル710はN個のネットワーク層を含み、それぞれネットワーク層711、ネットワーク層712、ネットワーク層713、ネットワーク層714、……、ネットワーク層715である。
第2のディープラーニングモデル720はM個のネットワーク層を含み、それぞれネットワーク層721、ネットワーク層722、ネットワーク層723、ネットワーク層724、……、ネットワーク層725である。本実施例において、NはMより大きい。
参照ディープラーニングモデル730はK個のネットワーク層を含み、それぞれネットワーク層731、ネットワーク層732、ネットワーク層733、ネットワーク層734、ネットワーク層735、……、ネットワーク層736である。本実施例において、KはMより大きい。
第3のサンプルデータl_3 701をそれぞれ参照ディープラーニングモデル730、トレーニングされた第1のディープラーニングモデル710及びトレーニングされた第2のディープラーニングモデル720に入力し、第1の出力T_F 702、第2の出力Assi_F 703及び第3の出力S_F 704を取得してもよい。
次に、第1の出力T_F 702、第2の出力Assi_F 703及び第3の出力S_F 704の間の差分が所定の閾値より小さいように、参照ディープラーニングモデル730、トレーニングされた第1のディープラーニングモデル710及びトレーニングされた第2のディープラーニングモデル720のパラメータを組み合わせて調整する。
なお、上記ネットワーク層はTransformerモデルに基づいて構築されてもよい。
図8は、本開示の一実施例に係る自然言語処理方法のフローチャートである。
図8に示すように、該方法800は操作810を含んでもよい。
操作S810において、自然言語情報をディープラーニングモデルに入力し、出力結果を取得する。
例えば、ディープラーニングモデルは本開示の実施例が提供する方法を利用してトレーニングされたものである。
例えば、上記第2のディープラーニングモデルを本実施例におけるディープラーニングモデルとしてもよい。一例において、上記の第2のディープラーニングモデル420、上記の第2のディープラーニングモデル520及び上記の第2のディープラーニングモデル720のうちのいずれか一つを本実施例におけるディープラーニングモデルとしてもよい。別の例において、上記の付加ネットワーク層S_LAdd 623を削除した第2のディープラーニングモデル620を本実施例におけるディープラーニングモデルとしてもよい。
図9は、本開示の一実施例に係るディープラーニングモデルのトレーニング装置のブロック図である。
図9に示すように、該装置900は、第1の取得モジュール910、第1のトレーニングモジュール920、第2の取得モジュール930及び第2のトレーニングモジュール940を含んでもよい。
第1の取得モジュール910は、第1のサンプルデータを第1のディープラーニングモデルに入力し、第1の出力結果を取得するために用いられる。
第1のトレーニングモジュール920は、前記第1の出力結果及び第1の目標出力結果に基づいて、前記第1のディープラーニングモデルをトレーニングし、トレーニングされた第1のディープラーニングモデルを取得するために用いられる。前記第1の目標出力結果は参照ディープラーニングモデルを利用して前記第1のサンプルデータを処理することにより取得されるものである。
第2の取得モジュール930は、第2のサンプルデータを第2のディープラーニングモデルに入力し、第2の出力結果を取得するために用いられる。
第2のトレーニングモジュール940は、前記第2の出力結果と第2の目標出力結果に基づいて、前記第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得するために用いられる。前記第2の目標出力結果は前記トレーニングされた第1のディープラーニングモデルにより前記第2のサンプルデータを処理することにより取得されるものである。
いくつかの実施例において、前記第1のディープラーニングモデルにおけるパラメータは前記参照ディープラーニングモデルにおけるパラメータよりも少なく、かつ前記第2のディープラーニングモデルにおけるパラメータよりも多い。
いくつかの実施例において、前記第1のトレーニングモジュールは、前記第1の出力結果が前記第1の目標出力結果と一致するように、前記第1のディープラーニングモデルにおけるパラメータを調整するための第1の調整ユニットを含む。
いくつかの実施例において、前記第2のトレーニングモジュールは、前記第2の出力結果が前記第2の目標出力結果と一致するように、前記第2のディープラーニングモデルにおけるパラメータを調整するための第2の調整ユニットを含む。
いくつかの実施例において、前記第1のディープラーニングモデルはN個のネットワーク層を含み、各ネットワーク層は第1の注意力モジュールを含み、前記第2のディープラーニングモデルはM個のネットワーク層を含み、各ネットワーク層は第2の注意力モジュールを含み、N及びMは1より大きい整数であり、かつNはMより大きい。前記第2の目標出力結果はN番目のネットワーク層における第1の注意力モジュールの出力であり、前記第2の出力結果はM番目のネットワーク層における第2の注意力モジュールの出力である。
いくつかの実施例において、前記第1のディープラーニングモデルはN個のネットワーク層を含み、各ネットワーク層は第1の注意力モジュールを含み、前記第2のディープラーニングモデルはM個のネットワーク層を含み、各ネットワーク層は順に接続された第2の注意力モジュール及びフィードフォワードモジュールを含み、N及びMは1より大きい整数であり、かつNはMより大きい。前記第2のトレーニングモジュールは、前記第2のディープラーニングモデルに、順に接続された、M番目のネットワーク層のフィードフォワードモジュールに接続される付加注意力モジュールと付加フィードフォワードモジュールとを含む付加ネットワーク層を設置するための設置ユニットと、前記付加注意力モジュールの出力がN番目のネットワーク層における注意力モジュールの出力と一致するように、前記第2のディープラーニングモデルにおけるパラメータを調整するための第3の調整ユニットと、前記付加ネットワーク層を削除し、トレーニングされた第2のディープラーニングモデルを取得するための削除ユニットと、を含む。
いくつかの実施例において、装置900は、第3のサンプルデータをそれぞれ前記参照ディープラーニングモデル、前記トレーニングされた第1のディープラーニングモデルと前記トレーニングされた第2のディープラーニングモデルに入力し、第1の出力、第2の出力及び第3の出力を取得するための第3の取得モジュールと、前記第1の出力、前記第2の出力及び前記第3の出力が互いに一致するように、前記参照ディープラーニングモデル、前記トレーニングされた第1のディープラーニングモデル及び前記トレーニングされた第2のディープラーニングモデルを組み合わせてトレーニングするための第3のトレーニングモジュールと、を更に含む。
図10は、本開示の別の実施例に係る自然言語処理装置のブロック図である。
図10に示すように、該装置1000は第4の取得モジュール1010を含んでもよい。
第4の取得モジュール1010は、自然言語情報をディープラーニングモデルに入力し、出力結果を取得するために用いられる。
例えば、前記ディープラーニングモデルは本開示の提供する装置を利用してトレーニングされたものである。
本開示の技術案において、関するユーザ個人情報の採集、記憶、使用、加工、伝送、提供、開示及び適用等はいずれも相関法規則の規定に適合し、必要な秘密保守手段を行ない、かつ公序良俗に反するものではない。
本開示の技術案において、個人情報を取得するか採集する前に、いずれもユーザの許可又は同意を取得した。
本開示の実施例によれば、本開示は電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供した。
図11は、本開示の実施例を実施することが可能な電子機器1100の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを示す。電子機器は、さらに様々な形式の移動装置を示し、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置であってよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図11に示すように、機器1100は、リードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する演算ユニット1101を含んでもよい。RAM1103には、さらに記憶機器1100の操作に必要な様々なプログラム及びデータを記憶してもよい。演算ユニット1101、ROM1102、およびRAM1103は、バス1104により相互に接続されている。バス1104には、入出力(I/O)インタフェース1105も接続されている。
機器1100における複数の部品は、I/Oインタフェース1105に接続され、例えばキーボード、マウスなどの入力ユニット1106と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット1107と、例えば磁気ディスク、光ディスクなどの記憶ユニット1108と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1109とを含む。通信ユニット1109は、機器1100がインターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
演算ユニット1101は、各種の処理、演算能力を有する汎用及び/又は専用の処理モジュールであってもよい。演算ユニット1101としては、中央処理ユニット(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムを実行する演算ユニット、デジタル信号機(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。演算ユニット1101は、上記説明した各方法及びステップを実行し、例えば、ディープラーニングモデルのトレーニング方法及び/又は自然言語処理方法である。例えば、いくつかの実施例において、ディープラーニングモデルのトレーニング方法及び/又は自然言語処理方法はコンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット1108に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM 1102及び/又は通信ユニット1109を介して装置1100にロード及び/又はインストールされる。コンピュータプログラムがRAM 1103にロードされかつ演算ユニット1101により実行される場合、上記ディープラーニングモデルのトレーニング方法及び/又は自然言語処理方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、演算ユニット1101は他の任意の適切な方式(例えば、ファームウェア)によりディープラーニングモデルのトレーニング方法及び/又は自然言語処理方法を実行するように構成されてもよい。
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送してもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してもよい。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. 第1のサンプルデータを第1のディープラーニングモデルに入力し、第1の出力結果を取得することと、
    前記第1の出力結果と参照ディープラーニングモデルを利用して前記第1のサンプルデータを処理することにより取得された第1の目標出力結果に基づいて、前記第1のディープラーニングモデルをトレーニングし、トレーニングされた第1のディープラーニングモデルを取得することと、
    第2のサンプルデータを第2のディープラーニングモデルに入力し、第2の出力結果を取得することと、
    前記第2の出力結果と前記トレーニングされた第1のディープラーニングモデルにより前記第2のサンプルデータを処理することにより取得された第2の目標出力結果に基づいて、前記第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得することと、を含み、
    前記第1のディープラーニングモデルはN個のネットワーク層を含み、各ネットワーク層は第1の注意力モジュールを含み、前記第2のディープラーニングモデルはM個のネットワーク層を含み、各ネットワーク層は第2の注意力モジュールを含み、N及びMは1より大きい整数であり、かつNはMより大きく、
    前記第2の目標出力結果は、N番目のネットワーク層における第1の注意力モジュールの出力であり、前記第2の出力結果は、M番目のネットワーク層における第2の注意力モジュールの出力である、
    ディープラーニングモデルのトレーニング方法。
  2. 前記第1のディープラーニングモデルにおけるパラメータは、前記参照ディープラーニングモデルにおけるパラメータより少なく、かつ前記第2のディープラーニングモデルにおけるパラメータより多い、
    請求項1に記載の方法。
  3. 前記第1の出力結果及び第1の目標出力結果に基づいて、前記第1のディープラーニングモデルをトレーニングし、トレーニングされた第1のディープラーニングモデルを取得することは、
    前記第1の出力結果が前記第1の目標出力結果と一致するように、前記第1のディープラーニングモデルにおけるパラメータを調整することを含む、
    請求項1または2に記載の方法。
  4. 前記第2の出力結果及び第2の目標出力結果に基づいて、前記第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得することは、
    前記第2の出力結果が前記第2の目標出力結果と一致するように、前記第2のディープラーニングモデルにおけるパラメータを調整することを含む、
    請求項1または2に記載の方法。
  5. 前記第1のディープラーニングモデルはN個のネットワーク層を含み、各ネットワーク層は第1の注意力モジュールを含み、前記第2のディープラーニングモデルはM個のネットワーク層を含み、各ネットワーク層は順に接続された第2の注意力モジュールとフィードフォワードモジュールを含み、N及びMは1より大きい整数であり、かつNはMより大きく、
    前記第2の出力結果及び第2の目標出力結果に基づいて、前記第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得することは、
    前記第2のディープラーニングモデルに、順に接続された、M番目のネットワーク層のフィードフォワードモジュールに接続される付加注意力モジュールと付加フィードフォワードモジュールとを含む付加ネットワーク層を設置することと、
    前記付加注意力モジュールの出力がN番目のネットワーク層における注意力モジュールの出力と一致するように、前記第2のディープラーニングモデルにおけるパラメータを調整することと、
    前記付加ネットワーク層を削除し、トレーニングされた第2のディープラーニングモデルを取得することとを含む、
    請求項1に記載の方法。
  6. 第3のサンプルデータをそれぞれ前記参照ディープラーニングモデル、前記トレーニングされた第1のディープラーニングモデルおよび前記トレーニングされた第2のディープラーニングモデルに入力し、第1の出力、第2の出力及び第3の出力を取得することと、
    前記第1の出力、前記第2の出力及び前記第3の出力が互いに一致するように、前記参照ディープラーニングモデル、前記トレーニングされた第1のディープラーニングモデル及び前記トレーニングされた第2のディープラーニングモデルを組み合わせてトレーニングすることと、を更に含む、
    請求項1に記載の方法。
  7. 自然言語情報を、請求項1に記載の方法を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得することを含む、
    自然言語処理方法。
  8. 第1のサンプルデータを第1のディープラーニングモデルに入力し、第1の出力結果を取得するための第1の取得モジュールと、
    前記第1の出力結果と、参照ディープラーニングモデルを利用して前記第1のサンプルデータを処理することにより取得された第1の目標出力結果とに基づいて、前記第1のディープラーニングモデルをトレーニングし、トレーニングされた第1のディープラーニングモデルを取得するための第1のトレーニングモジュールと、
    第2のサンプルデータを第2のディープラーニングモデルに入力し、第2の出力結果を取得するための第2の取得モジュールと、
    前記第2の出力結果と、前記トレーニングされた第1のディープラーニングモデルにより前記第2のサンプルデータを処理することにより取得された第2の目標出力結果とに基づいて、前記第2のディープラーニングモデルをトレーニングし、トレーニングされた第2のディープラーニングモデルを取得するための第2のトレーニングモジュールと、を含み、
    前記第1のディープラーニングモデルはN個のネットワーク層を含み、各ネットワーク層は第1の注意力モジュールを含み、前記第2のディープラーニングモデルはM個のネットワーク層を含み、各ネットワーク層は第2の注意力モジュールを含み、N及びMは1より大きい整数であり、かつNはMより大きく、
    前記第2の目標出力結果は、N番目のネットワーク層における第1の注意力モジュールの出力であり、前記第2の出力結果は、M番目のネットワーク層における第2の注意力モジュールの出力である、
    ディープラーニングモデルのトレーニング装置。
  9. 前記第1のディープラーニングモデルにおけるパラメータは、前記参照ディープラーニングモデルにおけるパラメータより少なく、かつ前記第2のディープラーニングモデルにおけるパラメータより多い、
    請求項に記載の装置。
  10. 前記第1のトレーニングモジュールは、
    前記第1の出力結果が前記第1の目標出力結果と一致するように、前記第1のディープラーニングモデルにおけるパラメータを調整するための第1の調整ユニットを含む、
    請求項またはに記載の装置。
  11. 前記第2のトレーニングモジュールは、
    前記第2の出力結果が前記第2の目標出力結果と一致するように、前記第2のディープラーニングモデルにおけるパラメータを調整するための第2の調整ユニットを含む、
    請求項またはに記載の装置。
  12. 前記第1のディープラーニングモデルはN個のネットワーク層を含み、各ネットワーク層は第1の注意力モジュールを含み、前記第2のディープラーニングモデルはM個のネットワーク層を含み、各ネットワーク層は順に接続された第2の注意力モジュールとフィードフォワードモジュールを含み、N及びMは1より大きい整数であり、かつNはMより大きく、
    前記第2のトレーニングモジュールは、
    前記第2のディープラーニングモデルに、順に接続された、M番目のネットワーク層のフィードフォワードモジュールに接続される付加注意力モジュールと付加フィードフォワードモジュールとを含む付加ネットワーク層を設置するための設置ユニットと、
    前記付加注意力モジュールの出力がN番目のネットワーク層における注意力モジュールの出力と一致するように、前記第2のディープラーニングモデルにおけるパラメータを調整するための第3の調整ユニットと、
    前記付加ネットワーク層を削除し、トレーニングされた第2のディープラーニングモデルを取得するための削除ユニットと、を含む、
    請求項に記載の装置。
  13. 第3のサンプルデータをそれぞれ前記参照ディープラーニングモデル、前記トレーニングされた第1のディープラーニングモデル及び前記トレーニングされた第2のディープラーニングモデルに入力し、第1の出力、第2の出力及び第3の出力を取得するための第3の取得モジュールと、
    前記第1の出力、前記第2の出力及び前記第3の出力が互いに一致するように、前記参照ディープラーニングモデル、前記トレーニングされた第1のディープラーニングモデル及び前記トレーニングされた第2のディープラーニングモデルを組み合わせてトレーニングするための第3のトレーニングモジュールと、を更に含む
    請求項に記載の装置。
  14. 自然言語情報を、請求項に記載の装置を利用してトレーニングされたディープラーニングモデルに入力し、出力結果を取得するための第4の取得モジュールを含む、
    自然言語処理装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続するメモリとを含み、
    前記メモリに、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1に記載の方法を実行することができる、
    電子機器。
  16. コンピュータに請求項1に記載の方法を実行させるためのコンピュータ命令を記憶している、
    非一時的なコンピュータ可読記憶媒体。
  17. プロセッサにより実行される時に請求項1に記載の方法を実現する、コンピュータプログラム。
JP2022156162A 2021-12-10 2022-09-29 ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム Active JP7438303B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111514073.9 2021-12-10
CN202111514073.9A CN114202076B (zh) 2021-12-10 2021-12-10 深度学习模型的训练方法、自然语言处理方法和装置

Publications (2)

Publication Number Publication Date
JP2022173453A JP2022173453A (ja) 2022-11-18
JP7438303B2 true JP7438303B2 (ja) 2024-02-26

Family

ID=80652694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022156162A Active JP7438303B2 (ja) 2021-12-10 2022-09-29 ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20230047980A1 (ja)
EP (1) EP4195110A1 (ja)
JP (1) JP7438303B2 (ja)
CN (1) CN114202076B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819188A (zh) * 2022-05-19 2022-07-29 北京百度网讯科技有限公司 模型训练方法、装置、电子设备及可读存储介质
CN115796272B (zh) * 2022-11-24 2024-03-12 北京百度网讯科技有限公司 基于深度学习平台的模型训练方法、数据处理方法和装置
CN115936091B (zh) * 2022-11-24 2024-03-08 北京百度网讯科技有限公司 深度学习模型的训练方法、装置、电子设备以及存储介质
CN116051935B (zh) * 2023-03-03 2024-03-22 北京百度网讯科技有限公司 图像检测方法、深度学习模型的训练方法及装置
CN116204642B (zh) * 2023-03-06 2023-10-27 上海阅文信息技术有限公司 数字阅读中角色隐式属性智能识别分析方法、***和应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132528A1 (en) 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training
US20210124881A1 (en) 2019-10-24 2021-04-29 Beijing Xiaomi Intelligent Technology Co., Ltd. Neural network model compresesion method, corpus translation method and device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118349673A (zh) * 2019-09-12 2024-07-16 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN113656581B (zh) * 2021-08-17 2023-09-22 北京百度网讯科技有限公司 文本分类及模型训练的方法、装置、设备以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132528A1 (en) 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training
US20210124881A1 (en) 2019-10-24 2021-04-29 Beijing Xiaomi Intelligent Technology Co., Ltd. Neural network model compresesion method, corpus translation method and device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIRZADEH, S et al.,"Improved Knowledge Distillation via Teacher Assistant",arXiv.org [online],2019年,pp. 1-11,[retrieved on 2023.08.31], Retrieved from the Internet: <URL: https://arxiv.org/abs/1902.03393v2>,<DOI: 10.48550/arXiv.1902.03393>
VASWANI, A et al.,"Attention Is All You Need",arXiv.org [online],2017年,pp. 1-15,[retrieved on 2023.08.31], Retrieved from the Internet: <URL: https://arxiv.org/abs/1706.03762v5>,<DOI: 10.48550/arXiv.1706.03762>

Also Published As

Publication number Publication date
US20230047980A1 (en) 2023-02-16
EP4195110A1 (en) 2023-06-14
CN114202076B (zh) 2023-05-23
JP2022173453A (ja) 2022-11-18
CN114202076A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
JP7438303B2 (ja) ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN108205699B (zh) 生成用于神经网络输出层的输出
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
CN112507040B (zh) 多元关系生成模型的训练方法、装置、电子设备及介质
EP4109347A2 (en) Method for processing multimodal data using neural network, device, and medium
JP7316453B2 (ja) オブジェクト推薦方法及び装置、コンピュータ機器並びに媒体
JP2014529787A (ja) 固有表現の認識方法及び装置
JP7297038B2 (ja) ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
JP2022006173A (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN113657100A (zh) 实体识别方法、装置、电子设备及存储介质
EP4123516A1 (en) Method and apparatus for acquiring pre-trained model, electronic device and storage medium
KR20220116395A (ko) 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN116701574A (zh) 文本语义相似度计算方法、装置、设备及存储介质
JP2022091919A (ja) バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
CN113468857A (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN117351299A (zh) 图像生成及模型训练方法、装置、设备和存储介质
US20230070966A1 (en) Method for processing question, electronic device and storage medium
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
CN116030235A (zh) 目标检测模型训练方法、目标检测方法、装置和电子设备
EP4020327A2 (en) Method and apparatus for training data processing model, electronic device and storage medium
CN114116959B (zh) 方面级情感分析方法、装置以及终端

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240213

R150 Certificate of patent or registration of utility model

Ref document number: 7438303

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150