JP7337979B2 - モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム - Google Patents

モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム Download PDF

Info

Publication number
JP7337979B2
JP7337979B2 JP2022021790A JP2022021790A JP7337979B2 JP 7337979 B2 JP7337979 B2 JP 7337979B2 JP 2022021790 A JP2022021790 A JP 2022021790A JP 2022021790 A JP2022021790 A JP 2022021790A JP 7337979 B2 JP7337979 B2 JP 7337979B2
Authority
JP
Japan
Prior art keywords
grained
samples
coarse
fine
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022021790A
Other languages
English (en)
Other versions
JP2022059021A (ja
Inventor
肖東凌
李宇▲クン▼
張涵
孫宇
�田�浩
呉華
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022059021A publication Critical patent/JP2022059021A/ja
Application granted granted Critical
Publication of JP7337979B2 publication Critical patent/JP7337979B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Description

本開示は、コンピュータ技術分野、具体的には自然言語処理、深層学習などの技術分野、特にモデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラムに関する。
マスク言語モデル(Masked language modeling、MLMと略称する)では、異なるマスク位置が互いに独立しており、ERNIE(Enhanced Representation from Knowledge Integration、知識強化意味表現モデル)、BERT-wwm(Bidirectional Encoder Representation from Transformers-Whole Word Masking)などのような連続マスク方式を採用したモデルについて、一の連続語彙に対し、内部に含まれる文字符号(character)の予測は互いに独立しているので、マスク言語モデルを、いくつかの文字符号の組み合わせを覚えさせるパターンしか訓練できず、この連続語彙自体の意味を効果的に学習によりマスターすることができるわけではなく、連続語彙の意味の緊密度が高くなっていない。
モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラムが提供される。
第一態様によれば、モデル訓練方法が提供される。この方法は、それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得することと、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得ることと、各段落テキストにおける粗粒度サンプルをアノテート(annotate)し、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングし、それぞれが細粒度サンプルとアノテートされた粗粒度サンプルのうちの少なくとも1つを含む複数のアノテートテキストを含む訓練サンプルセットを得ることと、訓練サンプルセットを採用して細粒度モデルを訓練して、直前の細粒度のコンテンツを学習して隣接する粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得ることと、を含む。
第二態様によれば、テキスト予測方法が提供される。この方法は、予測対象テキストを取得することと、予測対象テキストを第一態様の任意の実施形態に記載の方法によって生成された細粒度モデルに入力して、予測対象テキストにおける粗粒度および粗粒度のタイプを得ることと、を含む。
第三態様によれば、モデル訓練装置が提供される。この装置は、それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得するように構成されたサンプル取得ユニットと、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得るように構成された処理ユニットと、各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングし、それぞれが細粒度サンプルとアノテートされた粗粒度サンプルのうちの少なくとも1つを含む複数のアノテートテキストを含む訓練サンプルセットを得るように構成された得るユニットと、訓練サンプルセットを採用して細粒度モデルを訓練して、直前の細粒度のコンテンツを学習して隣接する粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得るように構成された訓練ユニットと、を含む。
第四態様によれば、テキスト予測装置が提供される。この装置は、予測対象テキストを取得するように構成された取得ユニットと、予測対象テキストを第一態様の任意の実施形態に記載の方法によって生成された細粒度モデルに入力して、予測対象テキストにおける粗粒度および粗粒度のタイプを得るように構成された得るユニットと、を含む。
第五態様によれば、電子デバイスが提供される。この電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、このメモリは、少なくとも1つのプロセッサによって実行可能な指令が記憶され、この指令は少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサが第一態様または第二態様の任意の実施形態に記載の方法を実行する。
第六態様によれば、第一態様または第二態様の任意の実施形態に記載の方法をコンピュータに実行させるために使用されるコンピュータ指令が記憶されている非一時的なコンピュータ可読記憶媒体が提供される。
第七態様によれば、プロセッサによって実行されると、第一態様または第二態様の任意の実施形態に記載の方法を実行するコンピュータプログラムが提供される。
本開示の実施例によって提供されるモデル訓練方法および装置は、まず、それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得し、次に各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得、次に各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングし、訓練サンプルセットを得、最後に訓練サンプルセットを採用して細粒度モデルを訓練して、直前の細粒度のコンテンツを学習して隣接する粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得る。従って、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングすることは、粗粒度を細粒度とすることに相当し、モデルを訓練するときに粗粒度サンプルを一回だけ予測すれば粗粒度の完全な表現を得ることができ、この予測は粗粒度におけるすべての細粒度を予測することではなく、細粒度モデルの収斂に有利で、モデルの計算量を節約すると同時にモデルが粗粒度の全体的な意味を効果的に学習することを可能にすることができる。
本開示の実施例によって提供されるテキスト予測方法および装置は、予測対象テキストを取得し、予測対象テキストを本実施例のモデル訓練方法によって生成された細粒度モデルに入力して、予測対象テキストにおける粗粒度および粗粒度のタイプを得る。従って、細粒度モデルは、複数の細粒度に対して粗粒度の区別を行い、かつ粗粒度の全体的な区別を行うこともできるので、粗粒度自体の意味の学習の助けになる。
このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明から理解が容易になる。
図面は、本実施例をより明確に理解するために使用され、本開示を限定するものではない。ここで、
本開示に係るモデル訓練方法の一実施例のフローチャートである。 本開示の実施例における細粒度モデル訓練の構造概略図である。 本開示に係るテキスト予測方法の一実施例のフローチャートである。 本開示に係るモデル訓練装置の一実施例の構造概略図である。 本開示に係るテキスト予測装置の一実施例の構造概略図である。 本開示の実施例におけるモデル訓練方法またはテキスト予測方法を実行するための電子デバイスのブロック図である。
以下に図面を参照しながら本開示の例示的な実施例を説明し、理解を助けるために本開示の実施例の様々な詳細を含むが、これらは単なる例示とすべきである。従って、本開示の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者が理解されるべきである。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略する。
図1は、本開示に係るモデル訓練方法の一実施例のフロー100を示す。上記モデル訓練方法は、以下のステップを含む。
ステップ101:少なくとも1つの段落テキストを取得する。
各段落テキストは、複数の細粒度サンプルを含む。
本実施例では、モデル訓練方法を実行する実行主体は、様々な手段を介して段落テキストを取得することができ、例えば、段落テキストを端末からリアルタイムで取得するか、またはデータリポジトリから複数のテキストを段落テキストとして選択することができる。
本実施例では、段落テキストが細粒度を最小単位としており、細粒度を組み合わせて粗粒度にすることができるので、本実施例によって提供されるモデル訓練方法によって生成された細粒度モデルは、予測対象テキストにおける細粒度を予測することができるか、または、予測対象テキストにおける細粒度および予測によって得られた予測細粒度以外の粗粒度を予測することができる。
本実施例では、細粒度および粗粒度は相対的な概念であり、定義された細粒度のコンテンツが異なると、対応する粗粒度もそれに応じて異なる。例えば、細粒度が文字符号である場合、粗粒度は単語、字句などであり得る。また例えば、細粒度が字句である場合、粗粒度は短文、テキストフラグメントなどであり得る。
本実施例では、細粒度モデルの訓練を実現するためには、細粒度を処理して細粒度サンプルを得、粗粒度を処理して粗粒度サンプルを得る必要がある。細粒度サンプルと粗粒度サンプルは、いずれも構築された細粒度モデルによって認識可能なサンプルであり、細粒度サンプルおよび粗粒度サンプルは、細粒度および粗粒度のみにしてもよく、細粒度サンプルおよび粗粒度サンプルには、細粒度および粗粒度の意味、構造、位置、ベクトル、タイプなどの情報をさらに含み得る。
ステップ102:各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得る。
本実施例では、段落テキスト全体において細粒度を最小単位として粗粒度の予測を実現するために、細粒度を組み合わせて粗粒度を得る必要がある。細粒度モデルの訓練サンプルセットを得る場合、細粒度モデルが細粒度サンプルのコンテンツを学習した上で粗粒度サンプルのコンテンツを予測できるように、段落テキストにおける粗粒度サンプルを充分に発掘する必要がある。
本実施例では、定義された細粒度サンプルが異なると、その組み合わせによって得られる粗粒度サンプルが異なってもよい。例えば、細粒度サンプルが文字サンプルである場合、粗粒度サンプルは字句サンプルまたはエンティティサンプルであり得る。細粒度サンプルが字句サンプルである場合、粗粒度サンプルはフレーズサンプルであり得る。
ステップ103:各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングし、訓練サンプルセットを得る。
ここで、訓練サンプルセットは、複数のアノテートテキストを含み、アノテートテキストごとに、細粒度サンプルとアノテートされた粗粒度サンプルのうちの少なくとも1つを含む。
本実施例では、アノテートテキストは段落テキストに対応し、アノテートテキストは、段落テキストはアノテートおよびマスキングによって得られたものである。各アノテートテキストにおける細粒度サンプルとアノテートされる粗粒度サンプルとの間の関係は、隣接してまたは間隔をおいて設置され得る(図2に示す)。あるいは、アノテートテキストは、アノテートされた細粒度サンプルをさらに含み得、該アノテートされた細粒度サンプルは細粒度のマスクでマスキングされ、細粒度のコンテンツがアノテートされてある。なお、アノテートされた粗粒度サンプルは粗粒度サンプルと粗粒度サンプルのアノテート情報とを含み、粗粒度サンプルのアノテート情報に基づいて粗粒度モデルのパラメータを調整するために使用され得る。
本実施例では、従来の細粒度モデルを訓練する前に、まず、予測対象細粒度サンプルを細粒度サンプルのマスクでマスキングし、予測対象細粒度サンプルに対して遮蔽を行い、細粒度モデルが遮蔽後の細粒度サンプルに対する予測によって細粒度モデルのパラメータを調整し、細粒度モデルによる予測対象の細粒度サンプルの予測結果が要件を満たすまで、細粒度モデルのパラメータを調整し続ける。本実施例では、図2に示すように、得られた粗粒度サンプルを細粒度サンプルのマスクXで遮蔽することにより、細粒度モデルが粗粒度に対して全体的な予測を行い、粗粒度の予測結果(細粒度表現結果)を得る。
本実施例では、1つの粗粒度サンプルを単一の細粒度サンプルのマスクでマスキングすることにより、マスキングされた粗粒度サンプルのそれぞれを一回だけ予測すれば粗粒度の完全な表現(粗粒度の予測結果)を得ることができ、この予測は粗粒度におけるすべての細粒度の表現を予測することではない。
あるいは、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングすると同時に、1つの細粒度サンプル(図2中の「の」など)を1つの細粒度サンプルのマスクでマスキングすることができるので、得られた訓練サンプルセットは、細粒度サンプル、アノテートされた粗粒度サンプルおよびアノテートされた細粒度サンプルを含み得る。
ステップ104:訓練サンプルセットを採用して細粒度モデルを訓練して、訓練済みの細粒度モデルを得る。
ここで、細粒度モデルは、直前の細粒度のコンテンツを学習して隣接する粗粒度のコンテンツを予測するために使用される。本実施例では、粗粒度は1つまたは複数の細粒度を組み合わせることによって得られ、細粒度モデルは、段落テキストにおける粗粒度に隣接する直前の細粒度を学習して粗粒度の予測結果を提供することができ、この予測結果は粗粒度のコンテンツであり、粗粒度のコンテンツはモデルによって学習された細粒度のコンテンツに関連しており、細粒度モデルが細粒度のタイプ、意味、構造、位置、ベクトルなどの情報を学習する場合、予測される粗粒度のコンテンツは、粗粒度のタイプ、意味、構造、位置、ベクトルなどの情報でもあり得る。
本実施例では、細粒度モデルはマスク言語モデルであり、このマスク言語モデルは、コンテキストに関連しない意味表現モデルWord2Vec(ワードベクトル相関モデル)、Gloveなどを含み得るか、またはコンテキストに関連する意味表現Elmo(Deep contextualized word representation、ディープコンテキストワード特徴付けモデル)、BERT(Bidirectional Encoder Representation from Transformers、双方向エンコーダモデル)などを含み得る。
具体的には、訓練サンプルセットを採用して細粒度モデルを訓練して、訓練済みの細粒度モデルを得ることは、以下を含む。
上記モデル構造を採用して細粒度ネットワークを構築し、訓練サンプルセットを採用して細粒度ネットワークを訓練する。訓練プロセスにおいて、細粒度ネットワークによって得られた訓練サンプルセットにおける訓練サンプルの粗粒度サンプルの予測結果と、訓練サンプルセットにおける訓練サンプルの粗粒度のアノテート情報との間の差異に基づいて、細粒度ネットワークの誤差を決定し、その誤差を段階的に縮小させるために誤差逆伝播法を利用して細粒度ネットワークのパラメータを繰り返し調整することができる。細粒度ネットワークの誤差が一定の範囲内に収斂されたとき、または繰り返し回数がプリセットの回数閾値に達したとき、パラメータの調整を停止し、訓練済みの細粒度モデルを得ることができる。
あるいは、訓練サンプルセットを採用して細粒度モデルを訓練して、訓練済みの細粒度モデルを得ることは、以下をさらに含み得る。
上記モデル構造を採用して細粒度ネットワークを構築し、訓練サンプルセットを採用して細粒度ネットワークを訓練する。訓練プロセスにおいて、細粒度ネットワークによって得られた訓練サンプルセットにおける訓練サンプルの細粒度サンプルの予測結果と、訓練サンプルセットにおける訓練サンプルの細粒度のアノテート情報との間の第一差異、及び細粒度ネットワークによって得られた訓練サンプルセットにおける訓練サンプルの粗粒度サンプルの予測結果と、訓練サンプルセットにおける訓練サンプルの粗粒度のアノテート情報との間の第二差異に基づいて、第一差異と第二差異との和によって細粒度ネットワークの誤差を決定し、その誤差を段階的に縮小させるために誤差逆伝播法を利用して細粒度ネットワークのパラメータを繰り返し調整することができる。細粒度ネットワークの誤差が一定の範囲内に収斂されたとき、または繰り返し回数がプリセットの回数閾値に達したとき、パラメータの調整を停止し、訓練済みの細粒度モデルを得ることができる。
一例として、地点エンティティ「黒竜江」について、従来の細粒度モデルの連続マスク方式を採用した予測式はP(「黒」|コンテキスト)P(「竜」|コンテキスト)P(「江」|コンテキスト)であり、辞書サイズを3e4とし、その予測候補スペースのサイズを(3e43=3e12とする場合、数値は非常に大きくてまばらであるため、語彙内部の文字符号間の依存性および相関性を充分にモデル化することができず、語彙自体の完全な意味をモデル化することに不利である。
本実施例の訓練済みの細粒度モデルを採用した粗粒度「黒竜江」の予測確率はP(「黒竜江」|コンテキスト)であり、粗粒度の辞書サイズを3e6とし、その予測スペースを3e6 << 3e12とする場合、粗粒度の予測スペースは、より小さくて稠密になるため、粗粒度自体の意味学習に有利で、細粒度モデルの収斂に有利である。
本開示の実施例によって提供されるモデル訓練方法は、まず、それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得し、次に各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得、次に各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングし、訓練サンプルセットを得、最後に訓練サンプルセットを採用して細粒度モデルを訓練して、直前の細粒度のコンテンツを学習して隣接する粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得る。従って、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングすることは、粗粒度を細粒度とすることに相当し、モデルを訓練するときに粗粒度サンプルを一回だけ予測すれば粗粒度の完全な表現を得ることができ、この予測は粗粒度におけるすべての細粒度を予測することではなく、細粒度モデルの収斂に有利で、モデルの計算量を節約すると同時にモデルが粗粒度の全体的な意味を効果的に学習することを可能にすることができる。
本実施例のいくつかのオプション的な実施形態では、上記細粒度サンプルは文字サンプルであり、粗粒度サンプルは字句サンプルまたはエンティティサンプルを含み、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得ることは、各段落テキストにおけるすべての文字サンプルの意味を取得することと、各文字サンプルの意味に基づいて、現在の段落テキストにおける隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠しているか否かを検出することと、隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠していることが検出されたことに応答して、字句組み合わせルールまたはエンティティ命名ルールに準拠しているすべての文字サンプルを組み合わせて、字句サンプルまたはエンティティサンプルを得ることと、を含む。
具体的には、図2に示すように、細粒度モデルは、段落テキスト「Xは〇会社Xリーダー、彼は3年連続で評価がX」ことを予測し、段落テキストにおける文字(例えば、図2中の「の」)の予測結果、および段落テキストにおける字句(例えば、図2中の「模範労働者」)またはエンティティ(例えば、図2中の「張様」)の予測結果を得る。
図2では、粗粒度を細粒度のマスクXでマスキングすることにより、細粒度モデルによる粗粒度に対する全体的な予測を実現し、粗粒度および粗粒度の予測結果を得た。
このオプション的な実施形態では、少なくとも2つの文字は単語と、フレーズと、全語彙とを含む字句またはエンティティを組み合わせることができ、細粒度サンプルは段落テキストを構成する最小単位である。細粒度サンプルが文字サンプルである場合、段落テキストにおける字句サンプルおよびエンティティサンプルを決定するためには、各文字の意味を取得し、隣接する少なくとも2つの文字サンプルが字句サンプルとして組み合わせられ得るか否か、またはエンティティ命名要件を満たしているか否かを判断し、エンティティ命名要件を満たしている文字サンプルを組み合わせてエンティティサンプルを得る必要がある。本実施例では、字句組み合わせルールは、各文字の意味を取得し、隣接する少なくとも2つの文字サンプルが字句サンプルとして組み合わせることができるか否かを判断することを含む。エンティティ命名ルールは、各文字の意味を取得し、隣接する少なくとも2つの文字サンプルがエンティティ命名要件を満たしているか否かを判断し、命名要件を満たす場合、エンティティ命名要件を満たす文字サンプルを組み合わせてエンティティサンプルを得ることを含む。
このオプション的な実施形態では、細粒度サンプルが文字サンプルである場合、字句ルールまたはエンティティ命名ルールに準拠している文字サンプルを選択することにより、粗粒度サンプルが字句サンプルまたはエンティティサンプルになるようにし、訓練済みの細粒度モデルが文字を単位としたテキストにおける字句またはエンティティのコンテンツを予測することを可能にすることができる。
本実施例のいくつかのオプション的な実施形態では、上記細粒度サンプルは文字サンプルであり、粗粒度サンプルはフレーズサンプルをさらに含み、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得ることは、各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおけるすべての文字サンプルがフレーズ組み合わせルールに準拠しているか否かを検出することと、現在の段落テキストにおける文字サンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての文字サンプルを組み合わせて、フレーズサンプルを得ることと、をさらに含む。
このオプション的な実施形態では、フレーズサンプルは、字句サンプルまたはエンティティサンプルの構造に基づいて少なくとも1つの字句サンプルまたはエンティティサンプルによって構成することができ、フレーズの組み合わせルールは、字句組み合わせルールまたはエンティティの命名ルールに準拠している字句サンプルまたはエンティティサンプルを取得し、各字句サンプルまたはエンティティサンプルにおける文字サンプルの構造に基づいて、各字句サンプルまたはエンティティサンプルの構造を決定し、隣接する少なくとも2つの字句サンプルまたはエンティティサンプルが対称性、類似性などの特徴を有する場合、該隣接する少なくとも2つの字句サンプルまたはエンティティサンプルを組み合わせ、フレーズサンプルを得ることを含む。
このオプション的な実施形態では、文字サンプルに基づいて字句サンプルまたはエンティティサンプルを組み合わせ、フレーズサンプルをさらに組み合わせることは、細粒度モデルが様々な粗粒度を認識するように信頼できるサンプルベースを提供し、細粒度モデルの認識信頼度を確保した。
あるいは、上記細粒度サンプルは文字サンプルであり、粗粒度サンプルはフレーズサンプルをさらに含み、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得ることは、現在の段落テキストにおけるすべての字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠しているか否かを検出することと、現在の段落テキストにおける字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての字句サンプルまたはエンティティサンプルを組み合わせ、フレーズサンプルを得ることと、をさらに含む。
本実施例のいくつかのオプション的な実施形態では、上記細粒度サンプルは字句サンプルまたはエンティティサンプルを含み、粗粒度サンプルはフレーズサンプルを含み、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得ることは、各段落テキストにおけるすべての字句サンプルまたはエンティティサンプルの意味および構造を取得することと、各字句サンプルまたはエンティティサンプルの意味および構造に基づいて、現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠しているか否かを検出することと、現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての字句サンプルまたはエンティティサンプルを組み合わせ、フレーズサンプルを得ることと、を含む。
このオプション的な実施形態では、字句サンプルまたはエンティティサンプルに基づいて字句サンプルまたはエンティティサンプルを組み合わせて、フレーズサンプルを得ることは、細粒度モデルが様々な粗粒度を認識するように信頼できるサンプルベースを提供し、細粒度モデルの認識信頼度を確保した。
本実施例のいくつかのオプション的な実施形態では、上記細粒度サンプルは文字サンプルであり、粗粒度サンプルはフレーズサンプルを含み、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得ることは、各段落テキストにおけるすべての文字サンプルの意味および構造を取得することと、各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおける隣接するプリセットの文字サンプルがフレーズ組み合わせルールに準拠しているか否かを順次に検出することと、現在の段落テキストにおける隣接するプリセットの文字サンプルにはフレーズ組み合わせルールに準拠している複数の文字サンプルがあることが検出されたことに応答して、フレーズ組み合わせルールに準拠している複数の文字サンプルを組み合わせ、フレーズサンプルを得ることと、を含む。
このオプション的な実施形態では、文字サンプルに基づいて文字サンプルを組み合わせ、組み合わせられたフレーズサンプルを得ることは、細粒度モデルが様々な粗粒度を認識するように信頼できるサンプルベースを提供し、細粒度モデルの認識信頼度を確保した。
本実施例のいくつかのオプション的な実施形態では、前述した各段落テキストにおける粗粒度サンプルをアノテートし、各段落テキストにおける粗粒度サンプルを細粒度サンプルのマスクでマスキングし、訓練サンプルセットを得ることは、各段落テキストにおける粗粒度サンプルのコンテンツおよびタイプをアノテートすることと、各段落テキストにおける粗粒度サンプルを細粒度モデルに対応する細粒度サンプルのマスクでマスキングし、アノテートされた粗粒度サンプルを得ることと、それぞれの段落テキストにおける各細粒度サンプルおよび各粗粒度サンプルの順序に従って、すべての細粒度サンプルおよびアノテートされた粗粒度サンプルをソートして、訓練サンプルセットを得ることと、を含む。
このオプション的な実施形態では、粗粒度サンプルのコンテンツは粗粒度自身であり、粗粒度サンプルのタイプは粗粒度の所属する分野、業界、種類などであってもよい。例えば、粗粒度サンプルが「高層ビル」である場合、この粗粒度のタイプは建築学になる。
このオプション的な実施形態では、それぞれの段落テキストにおける各細粒度サンプルおよび各粗粒度サンプルの順序に従って、すべての細粒度サンプルおよびアノテートされた粗粒度サンプルをソートすることは、訓練サンプルセットを細粒度モデルに入力した後、細粒度モデルが各細粒度サンプルのコンテンツを分析することにより、粗粒度サンプルのコンテンツを予測により得ることができ、細粒度モデルの収斂に有利である。
このオプション的な実施形態では、粗粒度サンプルのコンテンツおよびタイプをアノテートした後、粗粒度サンプルをマスクでマスキングし、各段落テキストにおける順序に従って、各細粒度および各粗粒度をソートすることは、細粒度モデルが細粒度および粗粒度のコンテンツをよりよく学習できるように信頼できるベースを提供し、細粒度モデルの訓練精度を確保した。
図3は、テキスト予測方法による一実施例のフローチャート300を示す。上記モデル訓練方法は、以下のステップを含む。
ステップ301:予測対象テキストを取得する。
本実施例では、予測対象テキストは少なくとも1つの異なるフォーマットテキストを含み得、テキストは細粒度を最小単位とし、粗粒度は細粒度によって組み合わせられたユニットであり、本実施例によって提供されるモデル訓練方法によって生成された細粒度モデルは、予測対象テキストにおける細粒度以外の粗粒度のコンテンツを予測することができる。あるいは、細粒度モデルは、予測対象テキストにおける細粒度および粗粒度を同時に予測することもできる。
本実施例では、段落テキストにおいて、細粒度を組み合わせることによって粗粒度を得ることができ、複数種類の異なるフォーマットテキストとは、段落テキストを構成する細粒度および粗粒度のフォーマットが異なることを意味する。例えば、あるフォーマットの段落テキストによって認識可能な細粒度は文字であり、認識可能な粗粒度はフレーズである。別のフォーマットの段落テキストによって認識可能な細粒度は字句であり、認識可能な粗粒度はフレーズである。
本実施例では、細粒度は、文字符号、文字、字句、フレーズ、短文、数字などを含み得る。対応して、粗粒度は、字句、フレーズ、短文などを含み得る。
ステップ302:予測対象テキストを細粒度モデルに入力して、予測対象テキストにおける粗粒度および粗粒度のタイプを得る。
本実施例では、訓練済みの細粒度モデルは、テキストに基づいてテキストにおける粗粒度のコンテンツおよびタイプを提供することができる。この粗粒度のコンテンツは、予測対象テキストからのものであり得る。具体的には、細粒度モデルは、ステップ101-104によって訓練されて生成された細粒度モデルを採用することができる。
本実施例では、細粒度モデルは、上記図1の実施例に記載の方法によって生成されたものであってもよい。具体的な生成プロセスには、図1の実施例の関連説明を参照することができるので、ここではその説明を省略する。
なお、本実施例のテキスト予測方法は、上記各実施例において生成された細粒度モデルをテストするために使用され得る。さらに、変換結果に基づいて細粒度モデルを絶えずに最適化することができる。この方法は、上記各実施例において生成された細粒度モデルの実際の適用方法でもあり得る。上記各実施例において生成された細粒度モデルを採用して予測対象テキストを予測することは、得られた予測結果の精度を向上させる助けになる。
本開示の実施例によって提供されるテキスト予測方法は、予測対象テキストを取得し、予測対象テキストを本実施例のモデル訓練方法によって生成された細粒度モデルに入力して、予測対象テキストにおける粗粒度および粗粒度のタイプを得る。従って、細粒度モデルは、複数の細粒度に対して粗粒度の区別を行い、粗粒度の全体的な区別を行うことができるので、粗粒度自身の意味学習の助けになる。
さらに図4を参照すると、上記の各図に示す方法の実施形態として、本開示は、図1に示す方法の実施例に対応するモデル訓練装置の実施例を提供する。この装置は、様々な電子デバイスに適用できる。
図4に示すように、本実施例によって提供されるモデル訓練装置400は、サンプル取得ユニット401と、処理ユニット402と、得るユニット403と、訓練ユニット404とを含む。ここで、上記サンプル取得ユニット401は、それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得するように構成され得る。上記処理ユニット402は、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得るように構成され得る。上記得るユニット403は、各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングし、それぞれが細粒度サンプルとアノテートされた粗粒度サンプルのうちの少なくとも1つを含む複数のアノテートテキストを含む訓練サンプルセットを得るように構成され得る。上記訓練ユニット404は、訓練サンプルセットを採用して細粒度モデルを訓練し、直前の細粒度のコンテンツを学習して隣接する粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得るように構成され得る。
本実施例では、モデル訓練装置400のサンプル取得ユニット401、処理ユニット402、得るユニット403、および訓練ユニット404の具体的な処理とその技術的効果については、それぞれ図1に対応する実施例のステップ101、ステップ102、ステップ103、およびステップ104の関連説明を参照することができるので、ここではその説明を省略する。
本実施例のいくつかのオプション的な実施形態では、上記細粒度サンプルは文字サンプルであり、粗粒度サンプルは字句サンプルまたはエンティティサンプルを含み、上記処理ユニット402は、文字意味取得モジュール(図示せず)と、文字検出モジュール(図示せず)と、字句組み合わせモジュール(図示せず)とを含む。ここで、上記文字意味取得モジュールは、各段落テキストにおけるすべての文字サンプルの意味を取得するように構成され得る。上記文字検出モジュールは、各文字サンプルの意味に基づいて、現在の段落テキストにおける隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠しているか否かを検出するように構成され得る。上記字句組み合わせモジュールは、隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠していることが検出されたことに応答して、字句組み合わせルールまたはエンティティ命名ルールに準拠しているすべての文字サンプルを組み合わせ、字句サンプルまたはエンティティサンプルを得るように構成され得る。
本実施例のいくつかのオプション的な実施形態では、上記処理ユニット402は、第一フレーズ検出モジュール(図示せず)と、第一フレーズ組み合わせモジュール(図示せず)とをさらに含む。ここで、上記第一フレーズ検出モジュールは、各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおけるすべての文字サンプルがフレーズ組み合わせルールに準拠しているか否かを検出するように構成され得る。上記第一フレーズ組み合わせモジュールは、現在の段落テキストにおける文字サンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての文字サンプルを組み合わせ、フレーズサンプルを得るように構成され得る。
本実施例のいくつかのオプション的な実施形態では、上記細粒度サンプルは字句サンプルまたはエンティティサンプルを含み、粗粒度サンプルはフレーズサンプルを含み、上記処理ユニット402は、字句意味取得モジュール(図示せず)と、第二フレーズ検出モジュール(図示せず)と、第二フレーズ組み合わせモジュール(図示せず)とを含む。ここで、上記字句意味取得モジュールは、各段落テキストにおけるすべての字句サンプルまたはエンティティサンプルの意味および構造を取得するように構成され得る。上記第二フレーズ検出モジュールは、各字句サンプルまたはエンティティサンプルの意味および構造に基づいて、現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠しているか否かを検出するように構成され得る。上記第二フレーズ組み合わせモジュールは、現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての字句サンプルまたはエンティティサンプルを組み合わせ、フレーズサンプルを取得するように構成され得る。
本実施例のいくつかのオプション的な実施形態では、上記細粒度サンプルは文字サンプルであり、粗粒度サンプルはフレーズサンプルを含み、処理ユニットは、文字構造取得モジュール(図示せず)と、第三フレーズ検出モジュール(図示せず)と、第三フレーズ組み合わせモジュール(図示せず)とを含む。上記文字構造取得モジュールは、各段落テキストにおけるすべての文字サンプルの意味および構造を取得するように構成され得る。上記第三フレーズ検出モジュールは、各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおける隣接するプリセットの文字サンプルがフレーズ組み合わせルールに準拠しているか否かを順次検出するように構成され得る。上記第三フレーズ組み合わせモジュールは、現在の段落テキストにおける隣接するプリセットの文字サンプルにはフレーズ組み合わせルールに準拠している複数の文字サンプルがあることが検出されたことに応答して、フレーズ組み合わせルールに準拠している複数の文字サンプルを組み合わせて、フレーズサンプルを得るように構成され得る。
本実施例のいくつかのオプション的な実施形態では、上記得るユニット403は、アノテートモジュール(図示せず)と、マスキングモジュール(図示せず)と、ソートモジュール(図示せず)とを含む。ここで、上記アノテートモジュールは、各段落テキストにおける粗粒度サンプルのコンテンツおよびタイプをアノテートするように構成され得る。上記マスキングモジュールは、各段落テキストにおける粗粒度サンプルを細粒度モデルに対応する細粒度サンプルのマスクでマスキングし、アノテートされた粗粒度サンプルを得るように構成され得る。上記ソートモジュールは、それぞれの段落テキストにおける各細粒度サンプルおよび各粗粒度サンプルの順序に従って、すべての細粒度サンプルおよびアノテートされた粗粒度サンプルをソートし、訓練サンプルセットを得るように構成され得る。
本開示の実施例によって提供されるモデル訓練装置については、まず、サンプル取得ユニット401は、それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得し、次に、処理ユニット402は、各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得、次に、得るユニット403は、各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングし、訓練サンプルセットを得、最後に、訓練ユニット404は、訓練サンプルセットを採用して細粒度モデルを訓練して、直前の細粒度のコンテンツを学習して隣接する粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得る。従って、1つの粗粒度サンプルを1つの細粒度サンプルのマスクでマスキングすることは、粗粒度を細粒度とすることに相当し、モデルを訓練するときに粗粒度サンプルを一回だけ予測すれば粗粒度の完全な表現を得ることができ、この予測は粗粒度におけるすべての細粒度を予測することではなく、細粒度モデルの収斂の助けになり、モデルの計算量を節約すると同時にモデルが粗粒度の全体的な意味を効果的に学習することを可能にすることができる。
さらに図5を参照すると、上記の各図に示す方法の実施形態として、本開示は、図3に示す方法の実施例に対応するテキスト予測装置の実施例を提供する。この装置は、様々な電子デバイスに適用できる。
図5に示すように、本実施例によって提供されるテキスト予測装置500は、取得ユニット501と、得るユニット502とを含む。ここで、上記取得ユニット501は、予測対象テキストを取得するように構成され得る。上記得るユニット502は、予測対象テキストを上記モデル訓練方法によって生成された細粒度モデルに入力して、予測対象テキストにおける粗粒度および粗粒度のタイプを得るように構成され得る。
本実施例では、テキスト予測装置500における取得ユニット501、および得るユニット502の具体的な処理とその技術的効果については、それぞれ図3に対応する実施例のステップ301およびステップ302の関連説明を参照することができるので、ここではその説明を省略する。
本開示の技術的解決手段に係るユーザ個人情報の取得、記憶、適用などはいずれも関連法令の規定を満たしており、公序良俗に違反していない。
本開示の実施例によれば、本開示は、電子デバイス、可読記憶媒体、およびコンピュータプログラムをさらに提供する。
図6は、本開示の実施例を実施するために使用され得る例示的な電子デバイス600の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本開示の実施形態を限定することを意図したものではない。
図6に示すように、デバイス600は、リードオンリメモリ(ROM)602に記憶されたコンピュータプログラム、または記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、各種の適切な動作および処理を実行することができる計算ユニット601を含む。RAM603には、デバイス600の動作に必要な各種のプログラムおよびデータも記憶され得る。計算ユニット601、ROM602、およびRAM603は、バス604を介して互いに接続される。入力/出力(I/O)インターフェース605も、バス604に接続される。
デバイス600内の複数の部品は、キーボード、マウスなどの入力ユニット606と、各種のディスプレイ、スピーカーなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609とを含むI/Oインターフェース605に接続される。通信ユニット609は、デバイス600が、インターネットなどのコンピュータネットワーク、および/または様々な通信ネットワークを介して、他のデバイスとの間で情報/データを交換することを可能にする。
計算ユニット601は、処理能力および計算能力を備えた様々な汎用および/または専用の処理コンポーネントであり得る。計算ユニット601のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上記各方法および処理、例えば、モデル訓練方法またはテキスト予測方法を実行する。例えば、いくつかの実施例では、モデル訓練方法またはテキスト予測方法は、記憶ユニット608などの機械可読媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して、デバイス600にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM603にロードされ、計算ユニット601によって実行されると、上記モデル訓練方法またはテキスト予測方法の1つまたは複数のステップが実行され得る。あるいは、他の実施例では、計算ユニット601は、他の任意の適切な手段(例えば、ファームウェア)を介して、モデル訓練方法またはテキスト予測方法を実行するように構成され得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途用標準品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルモデル訓練装置またはテキスト予測装置のプロセッサまたはコントローラに提供され得るので、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図で指定された機能/動作が実行される。プログラムコードは、完全にマシン上で実行され得るか、または部分的にマシン上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され得るか、または完全にリモートマシンまたはサーバ上で実行され得る。
本開示のコンテキストでは、機械可読媒体は、指令実行システム、装置またはデバイスによって使用されるか、または指令実行システム、装置またはデバイスと組み合わせて使用されるプログラムを含むかまたは記憶することができる有形媒体であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD-ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。
ユーザとのやりとりを提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとのやりとりを提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態とやりとりすることを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらのバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムはクライアントおよびサーバを含み得る。クライアントおよびサーバは通常互いに遠く離れており、通信ネットワークを介してやりとりする。クライアントとサーバとの関係は、対応するコンピュータでの実行により、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、または分散型システムのサーバ、またはブロックチェーンを組み合わせたサーバであってもよい。
なお、ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本開示に記載の各ステップは、本開示に開示された技術的解決手段による所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行され得るが、本明細書では限定をしない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかである。本開示の精神と原則の範囲内で行われた修正、均等な置換、改良などは、いずれも本開示の保護範囲に含まれるべきである。

Claims (15)

  1. それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得するサンプル取得ステップであって、前記細粒度サンプルは、細粒度自身及び該細粒度の関連情報からなる細粒度のコンテンツを含む、サンプル取得ステップと、
    各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得る処理ステップであって、前記粗粒度サンプルは、粗粒度自身及び該粗粒度の関連情報からなる粗粒度のコンテンツを含む、処理ステップと、
    各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの前記細粒度サンプルのマスクでマスキングし、それぞれが細粒度サンプルとアノテートされた粗粒度サンプルのうちの少なくとも1つを含む複数のアノテートテキストを含む訓練サンプルセットを得る訓練サンプルセット取得ステップと、
    前記訓練サンプルセットを採用して細粒度モデルを訓練し、段落テキストにおける粗粒度に隣接する直前の細粒度のコンテンツを学習して当該粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得る訓練ステップと、を含
    前記訓練サンプルセット取得ステップは、
    各段落テキストにおける粗粒度サンプルのコンテンツをアノテートすることであって、前記粗粒度サンプルのコンテンツは、粗粒度自身および当該粗粒度のタイプを含む、ことと、
    各段落テキストにおける粗粒度サンプルを前記細粒度モデルに対応する前記細粒度サンプルのマスクでマスキングし、アノテートされた粗粒度サンプルを得ることと、
    それぞれの段落テキストにおける各細粒度サンプルおよび各粗粒度サンプルの順序に従って、すべての細粒度サンプルおよびアノテートされた粗粒度サンプルをソートし、訓練サンプルセットを得ることと、を含む、
    モデル訓練方法。
  2. 前記細粒度サンプルは文字サンプルであり、前記粗粒度サンプルは字句サンプルまたはエンティティサンプルを含み、前記処理ステップは、
    各段落テキストにおけるすべての文字サンプルの意味を取得することと、
    各文字サンプルの意味に基づいて、現在の段落テキストにおける隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠しているか否かを検出することと、
    隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠していることが検出されたことに応答して、字句組み合わせルールまたはエンティティ命名ルールに準拠しているすべての文字サンプルを組み合わせ、字句サンプルまたはエンティティサンプルを得ることと、を含む、
    請求項1に記載の方法。
  3. 前記細粒度サンプルは文字サンプルであり、前記粗粒度サンプルはフレーズサンプルをさらに含み、前記処理ステップは、
    各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおけるすべての文字サンプルがフレーズ組み合わせルールに準拠しているか否かを検出することと、
    現在の段落テキストにおける文字サンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての文字サンプルを組み合わせ、フレーズサンプルを得ることと、をさらに含む、
    請求項2に記載の方法。
  4. 前記細粒度サンプルは字句サンプルまたはエンティティサンプルを含み、前記粗粒度サンプルはフレーズサンプルを含み、前記処理ステップは、
    各段落テキストにおけるすべての字句サンプルまたはエンティティサンプルの意味および構造を取得することと、
    各字句サンプルまたはエンティティサンプルの意味および構造に基づいて、現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠しているか否かを検出することと、
    現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての字句サンプルまたはエンティティサンプルを組み合わせ、フレーズサンプルを得ることと、を含む、
    請求項1に記載の方法。
  5. 前記細粒度サンプルは文字サンプルであり、前記粗粒度サンプルはフレーズサンプルを含み、前記処理ステップは、
    各段落テキストにおけるすべての文字サンプルの意味および構造を取得することと、
    各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおける隣接するプリセットの文字サンプルがフレーズ組み合わせルールに準拠しているか否かを順次に検出することと、
    現在の段落テキストにおける隣接するプリセットの文字サンプルにはフレーズ組み合わせルールに準拠している複数の文字サンプルがあることが検出されたことに応答して、フレーズ組み合わせルールに準拠している複数の文字サンプルを組み合わせ、フレーズサンプルを得ることと、を含む、
    請求項1に記載の方法。
  6. 予測対象テキストを取得することと、
    予測対象テキストを請求項1-のいずれか一項に記載の方法によって生成された細粒度モデルに入力して、前記予測対象テキストにおける粗粒度および前記粗粒度のタイプを得ることと、を含む、
    テキスト予測方法。
  7. それぞれが複数の細粒度サンプルを含む少なくとも1つの段落テキストを取得するように構成されたサンプル取得ユニットであって、前記細粒度サンプルは、細粒度自身及び該細粒度の関連情報からなる細粒度のコンテンツを含む、サンプル取得ユニットと、
    各段落テキストにおける細粒度サンプルを処理して粗粒度サンプルを得るように構成された処理ユニットであって、前記粗粒度サンプルは、粗粒度自身及び該粗粒度の関連情報からなる粗粒度のコンテンツを含む、処理ユニットと、
    各段落テキストにおける粗粒度サンプルをアノテートし、1つの粗粒度サンプルを1つの前記細粒度サンプルのマスクでマスキングし、それぞれが細粒度サンプルとアノテートされた粗粒度サンプルのうちの少なくとも1つを含む複数のアノテートテキストを含む訓練サンプルセットを得るように構成された訓練サンプルセット取得ユニットと、
    前記訓練サンプルセットを採用して細粒度モデルを訓練し、段落テキストにおける粗粒度に隣接する直前の細粒度のコンテンツを学習して、当該粗粒度のコンテンツを予測するために使用される訓練済みの細粒度モデルを得るように構成された訓練ユニットと、を含
    前記訓練サンプルセット取得ユニットは、
    各段落テキストにおける粗粒度サンプルのコンテンツをアノテートするように構成されたアノテートモジュールであって、前記粗粒度サンプルのコンテンツは、粗粒度自身および当該粗粒度のタイプを含む、アノテートモジュールと、
    各段落テキストにおける粗粒度サンプルを前記細粒度モデルに対応する前記細粒度サンプルのマスクでマスキングし、アノテートされた粗粒度サンプルを得るように構成されたマスキングモジュールと、
    それぞれの段落テキストにおける各細粒度サンプルおよび各粗粒度サンプルの順序に従って、すべての細粒度サンプルおよびアノテートされた粗粒度サンプルをソートし、訓練サンプルセットを得るように構成されたソートモジュールと、を含む、
    モデル訓練装置。
  8. 前記細粒度サンプルは文字サンプルであり、前記粗粒度サンプルは字句サンプルまたはエンティティサンプルを含み、前記処理ユニットは、
    各段落テキストにおけるすべての文字サンプルの意味を取得するように構成された文字意味取得モジュールと、
    各文字サンプルの意味に基づいて、現在の段落テキストにおける隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠しているか否かを検出するように構成された文字検出モジュールと、
    隣接する少なくとも2つの文字サンプルが字句組み合わせルールまたはエンティティ命名ルールに準拠していることが検出されたことに応答して、字句組み合わせルールまたはエンティティ命名ルールに準拠しているすべての文字サンプルを組み合わせ、字句サンプルまたはエンティティサンプルを得るように構成された字句組み合わせモジュールと、を含む、
    請求項に記載の装置。
  9. 前記処理ユニットは、
    各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおけるすべての文字サンプルがフレーズ組み合わせルールに準拠しているか否かを検出するように構成された第一フレーズ検出モジュールと、
    現在の段落テキストにおける文字サンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての文字サンプルを組み合わせ、フレーズサンプルを得るように構成された第一フレーズ組み合わせモジュールと、をさらに含む、
    請求項に記載の装置。
  10. 前記細粒度サンプルは字句サンプルまたはエンティティサンプルを含み、前記粗粒度サンプルはフレーズサンプルを含み、前記処理ユニットは、
    各段落テキストにおけるすべての字句サンプルまたはエンティティサンプルの意味および構造を取得するように構成された字句意味取得モジュールと、
    各字句サンプルまたはエンティティサンプルの意味および構造に基づいて、現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠しているか否かを検出するように構成された第二フレーズ検出モジュールと、
    現在の段落テキストにおける隣接する少なくとも2つの字句サンプルまたはエンティティサンプルがフレーズ組み合わせルールに準拠していることが検出されたことに応答して、フレーズ組み合わせルールに準拠しているすべての字句サンプルまたはエンティティサンプルを組み合わせ、フレーズサンプルを得るように構成された第二フレーズ組み合わせモジュールと、を含む、
    請求項に記載の装置。
  11. 前記細粒度サンプルは文字サンプルであり、前記粗粒度サンプルはフレーズサンプルを含み、前記処理ユニットは、
    各段落テキストにおけるすべての文字サンプルの意味および構造を取得するように構成された文字構造取得モジュールと、
    各文字サンプルの意味および各文字サンプルの構造に基づいて、現在の段落テキストにおける隣接するプリセットの文字サンプルがフレーズ組み合わせルールに準拠しているか否かを順次検出するように構成された第三フレーズ検出モジュールと、
    現在の段落テキストにおける隣接するプリセットの文字サンプルにはフレーズ組み合わせルールに準拠している複数の文字サンプルがあることが検出されたことに応答して、フレーズ組み合わせルールに準拠している複数の文字サンプルを組み合わせ、フレーズサンプルを得るように構成された第三フレーズ組み合わせモジュールと、を含む、
    請求項に記載の装置。
  12. 予測対象テキストを取得するように構成された取得ユニットと、
    予測対象テキストを請求項1-のいずれか一項に記載の方法によって生成された細粒度モデルに入力して、前記予測対象テキストにおける粗粒度および前記粗粒度のタイプを得るように構成された訓練サンプルセット取得ユニットと、を含む、
    テキスト予測装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な指令を記憶し、前記指令は、前記少なくとも1つのプロセッサが請求項1-のいずれか一項に記載の方法を実行できるように前記少なくとも1つのプロセッサによって実行されることを特徴とする、
    電子デバイス。
  14. コンピュータ指令が請求項1-のいずれか一項に記載の方法をコンピュータに実行させるために使用されることを特徴とする、コンピュータ指令が格納されている非一時的なコンピュータ可読記憶媒体。
  15. プロセッサによって実行されると、請求項1-のいずれか一項に記載の方法を実行するコンピュータプログラム。
JP2022021790A 2021-06-30 2022-02-16 モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム Active JP7337979B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110738146.6 2021-06-30
CN202110738146.6A CN113420822B (zh) 2021-06-30 2021-06-30 模型训练方法和装置、文本预测方法和装置

Publications (2)

Publication Number Publication Date
JP2022059021A JP2022059021A (ja) 2022-04-12
JP7337979B2 true JP7337979B2 (ja) 2023-09-04

Family

ID=77717886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022021790A Active JP7337979B2 (ja) 2021-06-30 2022-02-16 モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220129768A1 (ja)
JP (1) JP7337979B2 (ja)
CN (1) CN113420822B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330512B (zh) * 2021-12-13 2024-04-26 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN114792424A (zh) * 2022-05-30 2022-07-26 北京百度网讯科技有限公司 文档图像的处理方法、装置及电子设备
CN117350524B (zh) * 2023-12-05 2024-03-26 广东新禾道信息科技有限公司 一种新型基础测绘移动采集协同作业方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249932A (ja) 2000-03-06 2001-09-14 Tsubasa System Co Ltd 車両情報検索装置、車両情報検索方法及び車両情報検索システム
CN112560501A (zh) 2020-12-25 2021-03-26 北京百度网讯科技有限公司 语义特征的生成方法、模型训练方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN111539223B (zh) * 2020-05-29 2023-08-18 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN112560484B (zh) * 2020-11-09 2024-03-01 武汉数博科技有限责任公司 用于命名实体识别的改进bert训练模型及命名实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249932A (ja) 2000-03-06 2001-09-14 Tsubasa System Co Ltd 車両情報検索装置、車両情報検索方法及び車両情報検索システム
CN112560501A (zh) 2020-12-25 2021-03-26 北京百度网讯科技有限公司 语义特征的生成方法、模型训练方法、装置、设备及介质

Also Published As

Publication number Publication date
US20220129768A1 (en) 2022-04-28
CN113420822A (zh) 2021-09-21
JP2022059021A (ja) 2022-04-12
CN113420822B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
US20230016365A1 (en) Method and apparatus for training text classification model
JP7337979B2 (ja) モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US20220293092A1 (en) Method and apparatus of training natural language processing model, and method and apparatus of processing natural language
EP4116861A2 (en) Method and apparatus for pre-training semantic representation model and electronic device
EP4109324A2 (en) Method and apparatus for identifying noise samples, electronic device, and storage medium
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US20220129753A1 (en) Pre-training method of neural network model, electronic device and medium
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
JP7291181B2 (ja) 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
US20230342561A1 (en) Machine translation method and apparatus, device and storage medium
US20230139642A1 (en) Method and apparatus for extracting skill label
US20220139369A1 (en) Method for recognizing chinese-english mixed speech, electronic device, and storage medium
CN113362809B (zh) 语音识别方法、装置和电子设备
CN115577106A (zh) 基于人工智能的文本分类方法、装置、设备和介质
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN114898754B (zh) 解码图生成、语音识别方法、装置、电子设备及存储介质
US11907668B2 (en) Method for selecting annotated sample, apparatus, electronic device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230823

R150 Certificate of patent or registration of utility model

Ref document number: 7337979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150