JP7166322B2

JP7166322B2 - モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP7166322B2
Application number: JP2020206144A
Authority: JP
Inventors: ホンジェンシ; ウェンビンジャン; シンウュイフォン; ミャオユウ; ファンユイチョウ; メンティエン; シュエチョンウー; シュンチャオソン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-11
Filing date: 2020-12-11
Publication date: 2022-11-07
Anticipated expiration: 2040-12-11
Also published as: CN111428008B; CN111428008A; KR20210154069A; KR102534721B1; US20210390428A1; EP3923160A1; JP2021197137A

Description

本出願は、コンピュータ技術分野に関し、具体的には、知識グラフ分野、自然言語処理、ディープラーニング分野に関し、特に、モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。

意味マッチング技術は自然言語処理分野において重要な技術発展の方向であり、業務においても幅広く応用されており、応用の礎となっている。意味マッチング技術は、簡単に言うと、２つの文字列を意味理解した後、その意味に基づいて類似度マッチングを行う技術である。意味マッチング技術は自然言語処理分野において常に重要な地位を占めているだけでなく、ランキング、推薦、対話など多くの業務分野で幅広く応用されており、研究や業務に不可欠な一部である。

しかし、意味マッチングモデルの訓練データは意味マッチング技術の科学研究と業務への応用を制限している。意味マッチングモデルの訓練データでは、一部の基準が曖昧なマッチング要求に対してデータ注釈が困難であり、非常に多くの注釈ミスが出現したり、非常に多くのノイズが発生したりすることが多い。意味マッチングモデルの効果を更に推進するためには、ノイズを克服し、効率的かつ正確な意味マッチングモデルを訓練することが不可欠である。

本出願は、モデルを訓練するための方法、装置を提供する。

第１態様によれば、モデルを訓練するための方法であって、テキストデータ、画像データ、音声データもしくは映像データを含むサンプルデータとサンプルデータに対応する注釈分類結果とを含む第１の注釈データセットを取得するステップと、
前記第１の注釈データセットに基づいて予め設定された初期分類モデルを訓練して中間モデルを取得するステップと、
前記中間モデルを用いて前記第１の注釈データセットにおけるサンプルデータを予測して、前記サンプルデータに対応する予測分類結果を取得するステップと、
前記サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成するステップと、
前記第２の注釈データセットに基づいて前記中間モデルを訓練して分類モデルを取得するステップと、を含む、モデルを訓練するための方法を提供する。

第２態様によれば、モデルを訓練するための装置であって、テキストデータ、画像データ、音声データもしくは映像データを含むサンプルデータとサンプルデータに対応する注釈分類結果とを含む第１の注釈データセットを取得するように構成された取得ユニットと、
前記第１の注釈データセットに基づいて予め設定された初期分類モデルを訓練して中間モデルを取得するように構成された第１の訓練ユニットと、
前記中間モデルを用いて前記第１の注釈データセットにおけるサンプルデータを予測して、前記サンプルデータに対応する予測分類結果を取得するように構成された予測ユニットと、
前記サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成するように構成された生成ユニットと、
前記第２の注釈データセットに基づいて前記中間モデルを訓練して分類モデルを取得するように構成された第２の訓練ユニットと、を含む、モデルを訓練するための装置を提供する。

第３態様によれば、少なくとも1つのプロセッサおよび前記少なくとも1つのプロセッサに通信接続されたメモリを含む、モデルを訓練するための電子機器であって、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令が前記少なくとも1つのプロセッサによって実行されると前記少なくとも1つのプロセッサが第１態様に記載の方法を実行することを可能にする、電子機器を提供する。

第４態様によれば、コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令が第１態様に記載の方法を前記コンピュータに実行させるためのものである記憶媒体を提供する。

第５態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、第１態様に記載の方法を実現するコンピュータプログラムを提供する。

本出願に係る技術によれば、高ノイズの注釈データを効果的に利用し、実行可能性が高いモデルを訓練し、データの利用率を向上させることができる。

ここで説明された内容は、本開示の実施形態の肝心または重要な特徴を識別することが意図されているわけではなく、本開示の範囲を限定するためのものではないことを理解されたい。本開示の他の特徴は、以下の明細書によってより理解しやすくなるであろう。

図面は本出願をよりよく理解するために使用されるものであり、本出願への限定を構成しない。
図１は、本出願の一実施形態を適用することができる例示的なシステムアーキテクチャ図である。図２は、本出願に係るモデルを訓練するための方法の一実施形態のフローチャートである。図３は、本出願に係るモデルを訓練するための方法の１つの適用シーンの概略図である。図４は、本出願に係るモデルを訓練するための方法の別の実施形態のフローチャートである。図５は、本出願に係るモデルを訓練するための装置の一実施形態の構造概略図である。図６は、本出願の実施形態に係るモデルを訓練するための方法を実行するための電子機器のブロック図である。

以下では図面を参照して本出願に係る例示的な実施形態について説明する。理解を容易にするために、本出願の実施形態の様々な詳細が含まれるが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に係る実施形態は、本出願の範囲および趣旨から逸脱しない前提では、様々な変更および修正を行うことができることを認識できるであろう。同様に、以下の説明では、明確化かつ簡略化のために、公知の機能および構造の説明を省略する。

なお、本出願の実施形態および実施形態における特徴は、衝突しない前提で互いに組み合わせられてもよいことに留意されたい。以下、添付図面を参照し、実施形態に関連して本出願について詳細に説明する。

図１は、本出願に係るモデルを訓練するための方法またはモデルを訓練するための装置の一実施形態を適用することができる例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、メッセージなどを受送信するために、端末装置１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５と対話することができる。端末装置１０１、１０２、１０３には、ウェブページ閲覧系アプリケーション、音声認識系アプリケーションなど様々な通信クライアントアプリケーションが実装されることが可能である。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、スマートフォン、タブレット、電子ブックリーダー、車載コンピュータ、ラップトップ携帯コンピュータ、デスクトップコンピュータなどを含むが、これらに限定されない様々な電子機器であり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、上述した電子機器にインストールすることができる。これは、(例えば、分散サービスを提供するために使用される)複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。

サーバ１０５は、分類モデルを端末装置１０１、１０２、１０３に提供するバックグラウンドサーバのような様々なサービスを提供するサーバであり得る。バックグラウンドサーバは、訓練サンプルデータを用いて初期分類モデルを訓練し、目標分類モデルを取得して、目標分類モデルを端末装置１０１、１０２、１０３にフィードバックすることができる。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよく、単一のサーバとして実装されてもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するために使用される)として実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。

なお、本出願の実施形態によって提供されるモデルを訓練するための方法は、一般にサーバ１０５によって実行される。したがって、モデルを訓練するための装置は、一般にサーバ１０５内に配置される。

図１の端末装置、ネットワーク、およびサーバの数は、概略的なものにすぎないことを理解されたい。実施のニーズに応じて、任意の数の端末装置、ネットワーク、およびサーバを有することができる。

図２は、本出願に係るモデルを訓練するための方法の一実施形態の流れ２００を示す。本実施形態に係るモデルを訓練するための方法は、以下のステップ（ステップ２０１～２０５）を含む。

ステップ２０１：第１の注釈データセットを取得する。

本実施形態では、モデルを訓練するための方法の実行主体(例えば、図１に示すサーバ１０５)は、まず、第１の注釈データセットを取得することができる。上述した第１の注釈データセットは、サンプルデータと、サンプルデータに対応する注釈分類結果とを含むことができる。上述したサンプルデータは、テキストデータ、画像データ、映像データ、音声データなどを含むことができる。注釈分類結果は、サンプルデータに対して手動で注釈を行ったものであることが可能であり、サンプルデータが属する分類を表すために用いられることができる。例えば、サンプルデータは自動車画像である場合、注釈分類結果は「自動車」であり得る。

ステップ２０２：第１の注釈データセットに基づいて、予め設定された初期分類モデルを訓練し、中間モデルを取得する。

本実施形態では、実行主体は、第１の注釈データセットを取得した後、第１の注釈データセットを用いて、予め設定された初期分類モデルを訓練し、中間モデルを取得することができる。訓練時に、第１の注釈データセットの一部のデータまたはすべてのデータを用いて、初期分類モデルを訓練することができる。実行主体は、第１の注釈データセットにおけるサンプルデータを初期分類モデルの入力とし、入力されたサンプルデータに対応する注釈分類結果を所望の出力として、中間モデルを取得することができる。上述した初期分類モデルは、ニューラルネットワークなどの任意のディープラーニングモデルを含むことができる。

ステップ２０３：中間モデルを用いて第１の注釈データセットにおけるサンプルデータを予測し、サンプルデータに対応する予測分類結果を取得する。

訓練により中間モデルを取得した後、実行主体は第１の注釈データセットにおけるサンプルデータを上述した中間モデルに入力することにより、第１の注釈データセットにおけるサンプルデータを予測することができる。中間モデルは、サンプルデータが予め設定された各カテゴリに属する確率を判断し、予測分類結果を取得することができる。ここで、予測分類結果には、複数の予測確率値が含まれることが可能であり、サンプルデータが属するカテゴリが含まれることも可能である。例えば、予め設定されたカテゴリはカテゴリ１、２、３、４を含むことができる。中間モデルによる予測分類結果は０.２、０.３、０.１、０.４であってもよいし、カテゴリ４であってもよい。ここでカテゴリ４は予測確率値における最大値に対応するカテゴリである。

ステップ２０４：サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成する。

実行主体は、予測分類結果を取得した後、サンプルデータおよび注釈分類結果を結合して、第２の注釈データセットを生成することができる。第２の注釈データセットは、サンプルデータと、サンプルデータに対応する更新注釈結果とを含むこともできることを理解されたい。ここで、第２の注釈データセットにおけるサンプルデータは第１の注釈データセットにおけるサンプルデータと同様であってもよく、更新注釈結果は注釈分類結果と予測分類結果とを含むことができる。例えば、サンプルデータＡは注釈分類結果が１であり、予測分類結果が２である場合、第２の注釈データはサンプルデータＡおよび更新注釈結果１、２を含むことができる。

本出願のいくつかのオプションの実施形態では、予測分類結果には、予め設定されたカテゴリの予測確率値が含まれる。実行主体は図２に示されていないステップ、すなわち注釈分類結果および各予測確率値に基づいてサンプルデータの更新注釈結果を確定するステップと、サンプルデータおよび更新注釈結果に基づいて第２の注釈データセットを生成するステップとにより、第２の注釈データセットを生成することができる。

本実施形態では、実行主体は注釈分類結果および各予測確率値に基づいて、サンプルデータの更新注釈結果を確定することができる。上述した更新注釈結果には注釈分類結果に対応するカテゴリが含まれているほか、各予測確率値や予測されたカテゴリも含まれている。そして、実行主体はサンプルデータおよび更新注釈結果に基づいて第２の注釈データセットを生成することができる。具体的には、実行主体は以下の２つの実施形態で更新注釈結果を確定することができる。

実施形態１：各予測確率値および注釈分類結果に含まれるカテゴリを予め設定された順に配列し、配列の結果を更新注釈結果とする。

本実施形態では、実行主体は各予測確率値および注釈分類結果に含まれるカテゴリを予め設定された順に配列し、配列の結果を更新注釈結果とすることができる。例えば、予め設定されたカテゴリはカテゴリ１、２、３、４を含むことができる。中間モデルにより取得された予測分類結果は０.２、０.３、０.１、０.４であり得る。注釈分類結果に含まれるカテゴリは３である。この場合、更新注釈結果は０.２、０.３、０.１、０.４、３であってもよいし、３、０.２、０.３、０.１、０.４であってもよい。

実施形態２：各予測確率値における最大値に対応するカテゴリを確定し、確定されたカテゴリと注釈分類結果に含まれるカテゴリとを組み合わせて、更新注釈結果を取得する。

本実施形態では、実行主体はまず、各予測確率値における最大値に対応するカテゴリを確定することができる。例えば、予め設定されたカテゴリはカテゴリ１、２、３、４を含むことができる。中間モデルにより取得された予測分類結果は０.２、０.３、０.１、０.４であり得る。この場合、最大値に対応するカテゴリは４となる。注釈分類結果に含まれるカテゴリは３である場合、更新注釈結果は４、３であり得る。

ステップ２０５：第２の注釈データセットに基づいて中間モデルを訓練し、分類モデルを取得する。

実行主体は第２の注釈データセットを取得した後、第２の注釈データセットを用いて中間モデルを訓練し、分類モデルを取得することができる。具体的には、注釈分類結果が予測分類結果と同じである場合、実行主体はそのサンプルを正サンプルとすることができる。注釈分類結果が予測分類結果と異なる場合、実行主体はそのサンプルを負サンプルとすることができる。実行主体は、それぞれ正サンプルと負サンプルを用いて中間モデルを訓練し、分類モデルを取得することができる。

図３は、本出願に係るモデルを訓練するための方法の１つの適用シーンの概略図を示す。図３の適用シーンでは、サーバ３０１は端末装置３０２から第１の注釈データセットを取得し、そして第１の注釈データセットを用いて予め設定された初期分類モデルを訓練して中間モデルを取得し、さらに第１の注釈データセットおよび予測分類結果に基づいて第２の注釈データセットを取得することができる。サーバ３０１は第２の注釈データセットを用いて中間モデルを訓練し続け、分類モデルを取得することができる。次いで、実行主体は、分類モデルを端末装置３０２にフィードバックすることができる。

本出願の上述した実施形態によって提供されるモデルを訓練するための方法は、高ノイズの注釈データを効果的に利用し、実行可能性が高いモデルを訓練して得ることができ、データの利用率が向上される。

図４は、本出願に係るモデルを訓練するための方法の別の実施形態の流れ４００を示す。図４に示すように、本実施形態に係るモデルを訓練するための方法は、以下のステップ（ステップ４０１～４０７）を含むことができる。

ステップ４０１：第１の注釈データセットを取得する。

ステップ４０２：第１の注釈データセットに基づいて、予め設定された初期分類モデルを訓練し、中間モデルを取得する。

ステップ４０３：中間モデルを用いて第１の注釈データセットにおけるサンプルデータを予測し、サンプルデータに対応する予測分類結果を取得する。

ステップ４０４：サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成する。

ステップ４０１～４０４の原理は、ステップ２０１～２０４の原理と同様であるため、ここではこれ以上説明しない。

ステップ４０５：第２の注釈データセットにおけるサンプルデータを中間モデルに入力し、出力結果を確定する。

実行主体は、第２の注釈データセットにおけるサンプルデータを中間モデルに入力し、出力結果を取得することができる。この出力結果には各カテゴリに対応する予測確率が含まれている。

ステップ４０６：出力結果、注釈分類結果、および予測分類結果に基づいて、中間モデルの損失関数値を確定する。

本実施形態では、実行主体は出力結果、注釈分類結果、および予測分類結果に基づいて、中間モデルの損失関数値を確定することができる。具体的には、実行主体は出力結果と注釈分類結果および予測分類結果とをそれぞれ比較し、出力結果と注釈分類結果および予測分類結果との差を確定することができる。差の大きい比較結果に基づいて、中間モデルの損失関数値を確定する。

本出願のいくつかのオプションの実施形態では、実行主体は図４に示されていない次のステップ、すなわち出力結果および注釈分類結果に基づいて第１の損失関数値を確定するステップと、出力結果および予測分類結果に基づいて第２の損失関数値を確定するステップと、第１の損失関数値および第２の損失関数値に基づいて中間モデルの損失関数値を確定するステップとにより、中間モデルの損失関数値を確定することができる。

実行主体は、出力結果および注釈分類結果を予め設定された損失関数に代入して第１の損失関数値を取得することができる。ここで、第１の損失関数値は、１つの値であってもよいし、複数の値であってもよい。第１の損失関数が１つの値である場合、それが最大予測確率値に対応するカテゴリに対応する。第１の損失関数が複数の値である場合、それが各予測確率値に対応するカテゴリに対応する。

同様に、実行主体は、出力結果および予測分類結果を予め設定された損失関数に代入して第２の損失関数値を取得することができる。

実行主体は、第１の損失関数値および第２の損失関数値を取得した後に、両者を重み付けして１つの値を取得し、その値を中間モデルの損失関数値とすることができる。

本出願のいくつかのオプションの実施形態では、実行主体は、第１の損失関数値に対応する第１の重みおよび第２の損失関数値に対応する第２の重みを確定するステップと、第１の重み、第２の重み、第１の損失関数値、および第２の損失関数値に基づいて中間モデルの損失関数値を確定するステップとにより、中間モデルの損失関数値を確定することができる。

本実施形態では、まず、第１の損失関数値に対応する第１の重みおよび第２の損失関数値に対応する第２の重みを確定することができる。ここで、第１の重みおよび第２の重みは、手動で入力されてもよく、他のアルゴリズム(例えば、ランダムアルゴリズム、ディープラーニングアルゴリズムなど)によって取得されてもよい。その後、第１の重みに第１の損失関数値を乗算して積を取得し、第２の重みに第２の損失関数値を乗算して別の積を取得し、２つの積を加算して取得された和の値を中間モデルの損失関数値とすることができる。

本出願のいくつかのオプションの実施形態では、上述した第１の重みおよび第２の重みは、第１の注釈データセットにおけるノイズデータの割合に基づいて第１の重みおよび第２の重みを確定するステップにより、確定されることが可能である。

本実施形態では、第１の注釈データセットにおけるノイズデータの割合を確定することもできる。具体的には、実行主体は第１の注釈データセットを複数回サンプリングすることができる。サンプリングごとに取得されたデータについて、そのデータの注釈が正しいかどうかを確定する。正しい場合、そのデータがノイズデータでなく、正しくない場合、そのデータがノイズデータであると考えられる。サンプリングされたデータを統計することにより、第１の注釈データセットにおけるノイズデータの割合を確定することができる。次いで、実行主体はこの割合に基づいて、第１の重みおよび第２の重みを確定することができる。具体的には、第１の注釈データセットにおけるノイズデータの割合が大きい場合、第１の重みの値を適切に低減し、割合が小さい場合、第１の重みの値を適切に増加することができる。すなわち、第１重みの値は上述した割合に反比例する。

ステップ４０７：損失関数値に基づいて中間モデルのパラメータを調整し、分類モデルを取得する。

実行主体は、上述した損失関数値に基づいて中間モデルのパラメータを調整し、中間モデルのパラメータの最適化を実現し、分類モデルを取得することができる。

本出願の上述した実施形態によって提供されるモデルを訓練するための方法は、出力結果に基づいて２つの損失関数値を取得し、これら２つの損失関数値に基づいて最終的な損失関数値を計算することができるため、中間モデルの訓練の精度が向上され、取得された分類モデルがより正確になることができる。

さらに図５を参照すると、本出願は、上述した各図に示す方法の実施形態として、様々な電子機器に具体的に適用することができるモデルを訓練するための装置の一実施形態を提供する。この装置の実施形態は、図２に示す方法の実施形態に対応する。

図５に示すように、本実施形態に係るモデルを訓練するための装置５００は、取得ユニット５０１、第１の訓練ユニット５０２、予測ユニット５０３、生成ユニット５０４、および第２の訓練ユニット５０５を備える。

取得ユニット５０１は、第１の注釈データセットを取得するように構成されている。ここで、第１の注釈データセットは、テキストデータ、画像データ、音声データ、または映像データを含むサンプルデータと、サンプルデータに対応する注釈分類結果とを含む。

第１の訓練ユニット５０２は、第１の注釈データセットに基づいて、予め設定された初期分類モデルを訓練し、中間モデルを取得するように構成されている。

予測ユニット５０３は、中間モデルを用いて第１の注釈データセットにおけるサンプルデータを予測し、サンプルデータに対応する予測分類結果を取得するように構成されている。

生成ユニット５０４は、サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成するように構成されている。

第２の訓練ユニット５０５は、第２の注釈データセットに基づいて中間モデルを訓練し、分類モデルを取得するように構成されている。

本出願のいくつかのオプションの実施形態では、予測分類結果には、予め設定されたカテゴリの予測確率値が含まれている。生成ユニット５０４は、図５に示されていない確定モジュールおよび生成モジュールをさらに含むことができる。

確定モジュールは、注釈分類結果および各予測確率値に基づいて、サンプルデータの更新注釈結果を確定するように構成されている。

生成モジュールは、サンプルデータおよび更新注釈結果に基づいて、第２の注釈データセットを生成するように構成されている。

本出願のいくつかのオプションの実施形態では、確定モジュールはさらに、各予測確率値および注釈分類結果に含まれるカテゴリを予め設定された順に配列し、上述した配列の結果を更新注釈結果とするように構成されている。

本出願のいくつかのオプションの実施形態では、確定モジュールはさらに、各予測確率値における最大値に対応するカテゴリを確定し、確定されたカテゴリと注釈分類結果に含まれるカテゴリとを組み合わせて、更新注釈結果を取得するように構成されている。

本出願のいくつかのオプションの実施形態では、第２の訓練ユニットは、図５に示されていない、出力結果確定モジュール、損失関数値確定モジュール、およびモデル訓練モジュールをさらに含むことができる。

出力結果確定モジュールは、第２の注釈データセットにおけるサンプルデータを中間モデルに入力して、出力結果を確定するように構成されている。

損失関数値確定モジュールは、出力結果、注釈分類結果、および予測分類結果に基づいて、中間モデルの損失関数値を確定するように構成されている。

モデル訓練モジュールは、損失関数値に基づいて中間モデルのパラメータを調整して、分類モデルを取得するように構成されている。

本出願のいくつかのオプションの実施形態では、損失関数値確定モジュールはさらに、出力結果および注釈分類結果に基づいて第１の損失関数値を確定し、出力結果および予測分類結果に基づいて第２の損失関数値を確定し、第１の損失関数値および第２の損失関数値に基づいて中間モデルの損失関数値を確定するように構成されている。

本出願のいくつかのオプションの実施形態では、損失関数値確定モジュールはさらに、第１の損失関数値に対応する第１の重みおよび第２の損失関数値に対応する第２の重みを確定し、第１の重み、第２の重み、第１の損失関数値、および第２の損失関数値に基づいて中間モデルの損失関数値を確定するように構成されている。

本出願のいくつかのオプションの実施形態では、損失関数値確定モジュールはさらに、第１の注釈データセットにおけるノイズデータの割合に基づいて、第１の重みおよび第２の重みを確定するように構成されている。

モデルを訓練するための装置５００に記載されているユニット５０１～５０５は、それぞれ、図２を参照して説明された方法の各ステップに対応することを理解されたい。したがって、モデルを訓練するための方法について説明した動作および特徴は、装置５００およびその中に含まれているユニットにも同様に適用可能であり、ここではこれ以上説明しない。

本出願の実施形態によれば、本出願はまた、電子機器およびコンピュータ可読記憶媒体を提供する。

図６は、本出願の一実施形態に係るモデルを訓練するための方法を実行する電子機器のブロック図を示す。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本出願に示す構成要素、それらの接続と関係およびそれらの機能は、一例に過ぎず、本出願に係るおよび/または要求される本出願の実施形態を限定することが意図されていない。

図６に示すように、電子機器は、１つまたは複数のプロセッサ６０１と、メモリ６０２と、高速インターフェースおよび低速インターフェースを含む各構成要素を接続するためのインターフェースとを備える。各構成要素は、異なるバスで互いに接続されており、共通マザーボードに実施されていてもよく、必要に応じて他の方法で実施されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力装置上にＧＵＩのグラフィック情報を表示するために、メモリに記憶された命令を含む電子機器内で実行される命令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリと共に使用されることが可能である。同様に、複数の電子機器を接続することができる。各機器は一部の必要な動作(例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムとして)を行うことができる。図６では、１つのプロセッサ６０１を例にとる。

メモリ６０２は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。前記メモリは、本出願によって提供されるモデルを訓練するための方法を少なくとも１つのプロセッサに実行させるために、少なくとも１つのプロセッサによって実行可能な命令を記憶する。本出願の非一時的コンピュータ可読記憶媒体は、本出願によって提供されるモデルを訓練するための方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、本出願の実施形態におけるモデルを訓練するための方法を実行するプログラム命令/モジュール(例えば、図５に示す取得ユニット５０１、第１の訓練ユニット５０２、予測ユニット５０３、生成ユニット５０４、および第２の訓練ユニット５０５)のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールを記憶するために使用されることが可能である。プロセッサ６０１は、メモリ６０２に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、すなわち、上述した方法の実施形態におけるモデルを訓練するための方法を実行する。

メモリ６０２は、システム、少なくとも１つの機能を操作することに必要なアプリケーションを記憶することができるプログラム記憶領域と、モデルを訓練するための方法を実行する電子機器の使用に基づいて作成されたデータなどを記憶することができるデータ記憶領域とを含むことができる。さらに、メモリ６０２は、高速ランダムアクセスメモリを含むことができるほか、少なくとも１つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ６０２は、あるいは、プロセッサ６０１に対して遠隔設置されたリモートメモリを含み、これらのリモートメモリは、モデルを訓練するための方法を実行する電子機器にネットワークを介して接続されることが可能である。上述したネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。

モデルを訓練するための方法を実行する電子機器は、入力装置６０３および出力装置６０４をさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３、および出力装置６０４は、バスを介して接続されることが可能である。図６は、バスを介して接続されている例である。

入力装置６０３は、入力された数字または文字情報を受信し、モデルを訓練するための方法を実行する電子機器のユーザ設定および機能制御に関するキー信号の入力、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置を生成することができる。出力装置６０４は、表示装置、補助照明デバイス(例えば、ＬＥＤ)、および触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。表示装置は、液晶ディスプレイ(ＬＣＤ)、発光ダイオード(ＬＥＤ)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであり得る。

本出願に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組み合わせにおいて実施されることができる。これらの様々な実施形態は、専用または汎用プログラマブルプロセッサであってもよい少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができる1つまたは複数のコンピュータプログラム内において実施され、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび命令を受信し、かつデータおよび命令を記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置に送信することができる実施形態を含むことができる。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高レベルの手順および/またはオブジェクト指向プログラミング言語および/またはアセンブリ言語/機械語を使用して実施されることができる。本出願で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(ＰＬＤ))を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとの対話を提供するために、本出願に記載されたシステムおよび技術をコンピュータ上で実施することができる。前記コンピュータは、ユーザに情報を表示するための表示装置(例えば、ＣＲＴ(陰極線管)またはＬＣＤ(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとの対話を提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよい。ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信されることが可能である。

本出願に記載されたシステムおよび技術は、バックグラウンド構成要素を含むコンピュータシステム(例えば、データサーバとして)、またはミドルウェア構成要素を含むコンピュータシステム(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ（ユーザは、前記グラフィカルユーザインターフェースまたは前記ウェブブラウザを介して、本出願に記載されたシステムおよび技術の実施形態と相互作用することができる）)、または上記したバックグラウンド構成要素、ミドルウェア構成要素またはフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムに実装されることができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例としては、ローカルエリアネットワーク(ＬＡＮ)、ワイドエリアネットワーク(ＷＡＮ)およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは一般的に互いに離れており、通常に通信ネットワークを介して相互作用する。クライアントとサーバの関係は、互いにクライアント-サーバ関係を有するコンピュータプログラムを対応するコンピュータ上で動作することによって生成される。

本出願の実施形態に係る技術によれば、高ノイズの注釈データを効果的に利用し、実行可能性が高いモデルを訓練して得ることができ、データの利用率が向上される。

上述した様々な形態のプロセスを使用して、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよい。本出願に開示される技術が所望する技術効果を実現できるものであればよく、ここでは特に限定しない。

上記した具体的な実施形態は、本出願の保護範囲の制限を構成していない。当業者であれば、設計要求および他の要因に応じて様々な修正、組み合わせ、再組合および代替を行うことができると認識できるだろう。本出願の趣旨および原則内で行われる任意の修正、同等の置換および改善などはすべて本出願の保護範囲内に含まれるものとする。

Claims

モデルを訓練するための方法であって、前記方法は、サーバによって実行され、
テキストデータ、画像データ、音声データもしくは映像データを含むサンプルデータとサンプルデータに対応する注釈分類結果とを含む第１の注釈データセットを取得するステップと、
前記第１の注釈データセットに基づいて予め設定された初期分類モデルを訓練して中間モデルを取得するステップと、
前記中間モデルを用いて前記第１の注釈データセットにおけるサンプルデータを予測して、前記サンプルデータに対応する予測分類結果を取得するステップと、
前記サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成するステップと、
前記第２の注釈データセットに基づいて前記中間モデルを訓練して分類モデルを取得するステップと、を含む、モデルを訓練するための方法。
前記予測分類結果は、予め設定されたカテゴリの予測確率値を含み、
前記サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成するステップは、
前記注釈分類結果および各予測確率値に基づいて、前記サンプルデータの更新注釈結果を確定するステップと、
前記サンプルデータおよび前記更新注釈結果に基づいて、第２の注釈データセットを生成するステップと、を含む、請求項１に記載の方法。
前記注釈分類結果および各予測確率値に基づいて、前記サンプルデータの更新注釈結果を確定するステップは、
各予測確率値および前記注釈分類結果に含まれるカテゴリを予め設定された順に配列するステップと、
配列の結果を前記更新注釈結果とするステップと、を含む、請求項２に記載の方法。
前記注釈分類結果および各予測確率値に基づいて、前記サンプルデータの更新注釈結果を確定するステップは、
各予測確率値における最大値に対応するカテゴリを確定するステップと、
確定されたカテゴリと前記注釈分類結果に含まれるカテゴリとを組み合わせて、前記更新注釈結果を取得するステップと、を含む、請求項２に記載の方法。
前記第２の注釈データセットに基づいて前記中間モデルを訓練して、分類モデルを取得するステップは、
前記第２の注釈データセットにおけるサンプルデータを前記中間モデルに入力して、出力結果を確定するステップと、
前記出力結果、前記注釈分類結果および前記予測分類結果に基づいて、前記中間モデルの損失関数値を確定するステップと、
前記損失関数値に基づいて前記中間モデルのパラメータを調整して、前記分類モデルを取得するステップと、を含む、請求項１に記載の方法。
前記出力結果、前記注釈分類結果および前記予測分類結果に基づいて、前記中間モデルの損失関数値を確定するステップは、
前記出力結果および前記注釈分類結果に基づいて、第１の損失関数値を確定するステップと、
前記出力結果および前記予測分類結果に基づいて、第２の損失関数値を確定するステップと、
前記第１の損失関数値および前記第２の損失関数値に基づいて、前記中間モデルの損失関数値を確定するステップと、を含む、請求項５に記載の方法。
前記第１の損失関数値および前記第２の損失関数値に基づいて、前記中間モデルの損失関数値を確定するステップは、
前記第１の損失関数値に対応する第１の重みおよび前記第２の損失関数値に対応する第２の重みを確定するステップと、
前記第１の重み、前記第２の重み、前記第１の損失関数値および前記第２の損失関数値に基づいて、前記中間モデルの損失関数値を確定するステップと、を含む、請求項６に記載の方法。
前記第１の損失関数値に対応する第１の重みおよび前記第２の損失関数値に対応する第２の重みを確定するステップは、
前記第１の注釈データセットにおけるノイズデータの割合に基づいて、前記第１の重みおよび前記第２の重みを確定するステップと、を含む、請求項７に記載の方法。
テキストデータ、画像データ、音声データもしくは映像データを含むサンプルデータとサンプルデータに対応する注釈分類結果とを含む第１の注釈データセットを取得するように構成された取得ユニットと、
前記第１の注釈データセットに基づいて予め設定された初期分類モデルを訓練して中間モデルを取得するように構成された第１の訓練ユニットと、
前記中間モデルを用いて前記第１の注釈データセットにおけるサンプルデータを予測して、前記サンプルデータに対応する予測分類結果を取得するように構成された予測ユニットと、
前記サンプルデータ、対応する注釈分類結果、対応する予測分類結果に基づいて、第２の注釈データセットを生成するように構成された生成ユニットと、
前記第２の注釈データセットに基づいて前記中間モデルを訓練して分類モデルを取得するように構成された第２の訓練ユニットと、を含む、モデルを訓練するための装置。
前記予測分類結果は、予め設定されたカテゴリの予測確率値を含み、
前記生成ユニットは、
前記注釈分類結果および各予測確率値に基づいて、前記サンプルデータの更新注釈結果を確定するように構成された確定モジュールと、
前記サンプルデータおよび前記更新注釈結果に基づいて、第２の注釈データセットを生成するように構成された生成モジュールと、を含む、請求項９に記載の装置。
前記確定モジュールはさらに、
各予測確率値および前記注釈分類結果に含まれるカテゴリを予め設定された順に配列し、
配列の結果を前記更新注釈結果とするように構成されている、請求項１０に記載の装置。
前記確定モジュールはさらに、
各予測確率値における最大値に対応するカテゴリを確定し、
確定されたカテゴリと前記注釈分類結果に含まれるカテゴリとを組み合わせて、前記更新注釈結果を取得するように構成されている、請求項１０に記載の装置。
前記第２の訓練ユニットは、
前記第２の注釈データセットにおけるサンプルデータを前記中間モデルに入力して、出力結果を確定するように構成された出力結果確定モジュールと、
前記出力結果、前記注釈分類結果および前記予測分類結果に基づいて、前記中間モデルの損失関数値を確定するように構成された損失関数値確定モジュールと、
前記損失関数値に基づいて前記中間モデルのパラメータを調整して、前記分類モデルを取得するように構成されたモデル訓練モジュールと、を含む、請求項９に記載の装置。
前記損失関数値確定モジュールはさらに、
前記出力結果および前記注釈分類結果に基づいて、第１の損失関数値を確定し、
前記出力結果および前記予測分類結果に基づいて、第２の損失関数値を確定し、
前記第１の損失関数値および前記第２の損失関数値に基づいて、前記中間モデルの損失関数値を確定するように構成されている、請求項１３に記載の装置。
前記損失関数値確定モジュールはさらに、
前記第１の損失関数値に対応する第１の重みおよび前記第２の損失関数値に対応する第２の重みを確定し、
前記第１の重み、前記第２の重み、前記第１の損失関数値および前記第２の損失関数値に基づいて、前記中間モデルの損失関数値を確定するように構成されている、請求項１４に記載の装置。
前記損失関数値確定モジュールはさらに、
前記第１の注釈データセットにおけるノイズデータの割合に基づいて、前記第１の重みおよび前記第２の重みを確定するように構成されている、請求項１５に記載の装置。
少なくとも1つのプロセッサおよび前記少なくとも1つのプロセッサに通信接続されたメモリを含む、モデルを訓練するための電子機器であって、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令が前記少なくとも1つのプロセッサによって実行されると前記少なくとも1つのプロセッサが請求項１～８のいずれか一項に記載の方法を実行することを可能にする、電子機器。
コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令が請求項１～８のいずれか一項に記載の方法を前記コンピュータに実行させるためのものである記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～８のいずれか１項に記載の方法を実現するコンピュータプログラム。