JP7185014B2

JP7185014B2 - モデルトレーニング方法、機械翻訳方法、コンピュータ装置及びプログラム

Info

Publication number: JP7185014B2
Application number: JP2021505689A
Authority: JP
Inventors: トゥ，ジャオポン; リ，ジエン; ワン，シン; ワン，ロォンギュエ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2018-11-28
Filing date: 2019-11-26
Publication date: 2022-12-06
Anticipated expiration: 2039-11-26
Also published as: WO2020108483A1; CN110162799B; JP2021533466A; US20210201147A1; CN110162799A

Description

本願は、２０１８年１１月２８日に提出された、出願番号が２０１８１１４３６７９４．０で、発明の名称が「モデルトレーニング方法、機械翻訳方法、並びに、関連装置及び機器」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。

本願は、コンピュータ技術の分野に関し、特にニューラルネットワークモデルのトレーニング方法、機械翻訳方法、コンピュータ装置及びコンピュータ可読記憶媒体に関する。

近年、注意機構（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）は、深層学習に基づく自然言語処理（ＮｅｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）の分野における、例えば機械翻訳、スマート質問回答、音声認識などの様々なタスクに広く用いられている。

現在、広く応用されているのは、マルチヘッド注意（Ｍｕｌｔｉ－ｈｅａｄｅｄＡｔｔｅｎｔｉｏｎ）機構であり、いわゆるマルチヘッド注意機構とは、複数の注意ネットワークを介して異なる特徴を学習することであり、すなわち、複数回計算することにより異なるサブ空間上の関連情報を取り込むことである。

しかしながら、従来のマルチヘッド注意機構に基づくモデルは、トレーニング中、それぞれのサブ空間を独立して取り扱うため、従来のマルチヘッド注意機構に基づくモデルの表現学習能力が低い。

本願の実施形態は、トレーニングされたニューラルネットワークモデルが、その中の複数の注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させ、より多くの情報を含む特徴を学習し、それによりモデルの表現学習能力を高めることができることを確保するニューラルネットワークモデルのトレーニング方法を提供する。

第１の態様では、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法は、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含む。

第２の態様では、本願の実施形態に係る機械翻訳方法は、
翻訳対象のコンテンツを取得するステップと、
機械翻訳モデルにより、前記翻訳対象のコンテンツに対応する翻訳結果を取得するステップであって、前記機械翻訳モデルが、上記第１態様に記載のモデルトレーニング方法でトレーニングされたものである、ステップと、
前記翻訳結果を表示するステップと、を含む。

第３の態様では、本願の実施形態に係るコンピュータ装置は、プロセッサ及びメモリを含み、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコードにおける命令に基づいて、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を実行する。

第４の態様では、本願の実施形態に係るコンピュータ装置は、プロセッサ及びメモリを含み、
前記メモリは、上記第１態様に記載のニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、
前記プロセッサは、前記機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する。

第５の態様では、本願の実施形態に係るコンピュータ可読記憶媒体は、コンピュータ上で実行されると、コンピュータに、上記第１態様に記載のニューラルネットワークモデルのトレーニング方法を実行させるか、又は、上記第２の態様に記載の機械翻訳方法を実行させる命令を含む。

本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の適用シーンの概略図である。本願の実施形態に係るニューラルネットワークモデルのトレーニング方法のフローチャートである。本願の実施形態に係る非線形変換方式のフローチャートである。本願の実施形態に係る非線形変換方式の原理概略図である。本願の実施形態に係る別の非線形変換方式のフローチャートである。本願の実施形態に係る別の非線形変換方式の原理概略図である。本願の実施形態に係る更なる非線形変換方式のフローチャートである。本願の実施形態に係る更なる非線形変換方式の原理概略図である。本願の実施形態に係る機械翻訳モデルの概略構成図である。本願の実施形態に係る機械翻訳方法のフローチャートである。本願の実施形態に係るニューラルネットワークモデルのトレーニング装置の概略構成図である。本願の実施形態に係る特徴融合ベクトル生成モデルの概略構成図である。本願の実施形態に係る別の特徴融合ベクトル生成モデルの概略構成図である。本願の実施形態に係る更なる特徴融合ベクトル生成モデルの概略構成図である。本願の実施形態に係る機械翻訳装置の概略構成図である。本願の実施形態に係るサーバの概略構成図である。本願の実施形態に係る端末装置の概略構成図である。

当業者が本願の技術手段を一層簡単に理解するように、以下、本願の実施形態における図面を参照しながら、本願の実施形態の技術手段を明確かつ完全に説明するが、明らかに、説明される実施形態は、本願の一部の実施形態に過ぎず、全ての実施形態ではない。当業者が本願の実施形態を基に、創造的な労働をすることなく得られる他の全ての実施形態は、いずれも本願の保護範囲に含まれる。

本願の明細書、特許請求の範囲及び上記図面における「第１」、「第２」、「第３」、「第４」など（存在すれば）の用語は、類似の対象を区別するためのもので、特定の順序又は前後順を限定するものではない。ここで説明する本願の実施形態が図面に示すか又は説明した順とは異なる順でも実現できるように、このように使用されるデータは適切な状況で交換可能であることを理解されたい。また、用語「含む」、「有する」及びそれらの任意の変形は、非排他的に含むことをカバーするものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、それらのステップ又はユニットを明確に例示したものに限定されず、明確に例示していない又はこれらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを含んでもよいことを表す。

従来技術では、マルチヘッド注意機構に基づくモデルのトレーニングプロセスにおいて、一般的に線形連結の方式を用いて、モデル中の複数の注意ネットワークのそれぞれの出力ベクトルを直接連結して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。しかしながら、このような線形連結の方式は、各サブ空間の間の複雑な関係を効果的にモデリングすることができず、各特徴の間の相補的な関係を抽出することができないため、非効率的な特徴融合機構である。

上記従来技術に存在する課題を解決するために、本願の実施形態は、トレーニングされたニューラルネットワークモデルが、その中の複数の注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることにより、交換可能な最終的な出力表現を生成できることを確保するニューラルネットワークモデルのトレーニング方法を提供する。

以下、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の核心技術的思想を説明する。

該ニューラルネットワークモデルのトレーニング方法において、まず、トレーニングサンプル及びそれ（すなわち、該トレーニングサンプル）に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得し、次に、複数の注意ネットワークを含むニューラルネットワークモデルに該トレーニングサンプルセット中のトレーニングサンプルを入力し、すなわち、トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、そして、該ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、さらに、ニューラルネットワークモデルが特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、該トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する。

上記ニューラルネットワークモデルのトレーニング方法において、ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを線形連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合特徴ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。

なお、注意機構に基づくニューラルネットワークモデルは、現在、例えば機械翻訳、画像注釈、スマート質問回答、音声認識などの様々な適用シーンに広く用いられており、ある適用シーンに対して、特定の機能を実現可能なニューラルネットワークモデルを開発する必要がある場合、該適用シーンにおける関連データをトレーニングサンプルセットとして取得し、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を用いて、上記トレーニングサンプルセットを利用して、該適用シーンに適するニューラルネットワークモデルを適宜トレーニングすることができる。

本願の実施形態に係るニューラルネットワークモデルのトレーニング方法は、例えば、コンピュータ装置、端末装置、サーバなどの、モデルトレーニング機能を備えた機器に適用できることを理解されたい。端末装置は、具体的には、スマートフォン、コンピュータ、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｔａｎｔ、ＰＤＡ）、タブレットなどであってよく、サーバは、具体的には、アプリケーションサーバであってもよいし、Ｗｅｂサーバであってもよく、実際の応用配置の場合、該サーバは、独立サーバであってもよいし、クラスタサーバであってもよい。

実際の応用では、端末装置とサーバとは、ニューラルネットワークモデルを個別にトレーニングしてもよいし、相互にやりとりしてニューラルネットワークモデルをトレーニングしてもよく、両者がやりとりしてニューラルネットワークモデルをトレーニングする場合、端末装置は、サーバからトレーニングサンプルセットを取得し、さらに該トレーニングサンプルセットを利用してニューラルネットワークモデルをトレーニングしてよく、あるいは、サーバは、端末からトレーニングサンプルセットを取得し、該トレーニングサンプルセットを利用してニューラルネットワークモデルをトレーニングしてよい。

端末装置又はサーバは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を実行し、ターゲットニューラルネットワークモデルをトレーニングして取得した後、該ターゲットニューラルネットワークモデルを他の端末装置に送信して、これらの端末装置上で上記ターゲットニューラルネットワークモデルを実行して、対応する機能を実現してもよいし、該ターゲットニューラルネットワークモデルを他のサーバに送信して、他のサーバ上で上記ターゲットニューラルネットワークモデルを実行し、これらのサーバによって、対応する機能を実現してもよいことを理解されたい。

本願の実施形態に係る技術案を容易に理解するために、以下、サーバがニューラルネットワークモデルをトレーニングすることを例にして、実際の適用シーンと組み合わせて本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を説明する。

図１を参照すると、図１は、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の適用シーンの概略図である。該シーンには、端末装置１０１と、ニューラルネットワークモデルをトレーニングするためのサーバ１０２とが含まれており、端末装置１０１とサーバ１０２とは、有線又は無線ネットワークであってよいネットワークを介して接続される。端末装置１０１は、トレーニングサンプル及びトレーニングサンプルに対応する標準ラベルをサーバに提供することができる。

サーバ１０２は、ネットワークを介して端末装置１０１からトレーニングサンプル及びトレーニングサンプルに対応する標準ラベルを取得した後、各標準ラベルを適宜、標準ラベルベクトルに変換し、サーバ１０２は、取得した全てのトレーニングサンプル及びそれ（すなわち、各トレーニングサンプル）に対応する標準ラベルベクトルをトレーニングサンプルセットとし、次に、複数の注意ネットワークを含むニューラルネットワークモデルに該トレーニングサンプルセットを入力し、すなわち、トレーニングサンプルセットをニューラルネットワークモデルの複数の注意ネットワークに入力し、サーバ１０２は、該ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、さらに、ニューラルネットワークモデルが該特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、最終的に、サーバ１０２は、トレーニングサンプルに対応する標準ラベルベクトルと予測ラベルベクトルとの比較結果に基づいて、ニューラルネットワークモデルが収束条件を満たすまで、ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する。

サーバ１０２は、ターゲットニューラルネットワークモデルを生成した後、さらに、該ターゲットニューラルネットワークモデルを端末装置１０１に送信して、該ターゲットニューラルネットワークモデルを端末装置上で実行し、これらのターゲットニューラルネットワークモデルを利用して、対応する機能を実現するようにしてよい。

なお、サーバ１０２は、ニューラルネットワークモデルをトレーニングするプロセスにおいて、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合し、このような非線形変換により出力ベクトルを融合する方式は、各注意ネットワークの出力ベクトルの間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合特徴ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。

なお、上記図１に示す適用シーンは一例に過ぎず、実際の応用において、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法は、他の適用シーンにも適用可能であり、ここでは、該ニューラルネットワークモデルのトレーニング方法の適用シーンを何ら限定しない。

以下、実施形態により本願に係るニューラルネットワークモデルのトレーニング方法を説明する。

図２を参照すると、図２は、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法のフローチャートである。説明の便宜上、下記実施形態では、サーバを実行主体として説明するが、該ニューラルネットワークモデルのトレーニング方法の実行主体は、サーバに限定されず、端末装置などの、モデルトレーニング機能を備えた装置にも適用可能であることを理解されたい。図２に示すように、該ニューラルネットワークモデルのトレーニング方法は、以下のステップ２０１～２０５を含む。

ステップ２０１では、サーバは、トレーニングサンプルセットを取得し、該トレーニングサンプルセットは、トレーニングサンプル及びそれ（すなわち、トレーニングサンプル）に対応する標準ラベルベクトルを含む。

サーバは、トレーニングサンプルセットを取得して、該トレーニングサンプルセット中のトレーニングサンプルを利用してニューラルネットワークモデルをトレーニングし、該トレーニングサンプルセットには、一般的に、複数のトレーニングサンプルと、これらのトレーニングサンプルのそれぞれに対応する標準ラベルベクトルとが含まれ、該標準ラベルベクトルは、トレーニングサンプルに対応する標準ラベルに基づいて生成されるものである。

一部の実施形態では、サーバは、関連データベースから若干の履歴データを取得し、取得した若干の履歴データをトレーニングサンプルセットとしてよい。本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の実行主体が端末装置である場合、端末装置は、サーバへの履歴データの取得クエリを開始し、サーバから若干の履歴データをトレーニングサンプルセットとして取得してよいことを理解されたい。

任意選択で、上記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも１つを含むが、これらに限定されず、該トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである。

トレーニングサンプルが翻訳対象のテキストである場合、該トレーニングサンプルに対応する標準ラベルは、該翻訳対象のテキストに対応する標準翻訳テキストである。トレーニングサンプルである翻訳対象のテキストが中国語であり、該翻訳対象のテキストを対応する英語に翻訳する必要があれば、該トレーニングサンプルに対応する標準ラベルは、英語の標準翻訳テキストであり、例えば、トレーニングサンプルである翻訳対象のテキストが中国語の

外１

であれば、該トレーニングサンプルに対応する標準ラベルは「Ｉｌｏｖｅｙｏｕ」であり、トレーニングサンプルである翻訳対象のテキストが英語であり、該翻訳対象のテキストを対応する中国語に翻訳する必要があれば、該トレーニングサンプルに対応する標準ラベルは、中国語の標準翻訳テキストであり、例えば、トレーニングサンプルである翻訳対象のテキストが英語の「Ｉｌｏｖｅｙｏｕ」であれば、該トレーニングサンプルに対応する標準ラベルは

外２

である。

トレーニングサンプルは、翻訳対象のビデオである場合、一般的に、画像注釈の適用シーンに適用され、該トレーニングサンプルに対応する標準ラベルは標準翻訳テキストであり、該標準翻訳テキストは、翻訳対象のビデオに表示されるシーンに対応するテキスト情報であり、例えば、トレーニングサンプルである翻訳対象のビデオに表示されるシーンは、先生が教室内で学生に授業をしていることであれば、該トレーニングサンプルに対応する標準ラベルは、「先生が教室内で授業をしている」ことである。ここでの翻訳対象のビデオは、静的ビデオフレームであってもよいし、動的ビデオフレームであってもよい。

トレーニングサンプルが翻訳対象のオーディオである場合、該トレーニングサンプルに対応する標準ラベルは、依然として、標準翻訳テキストであり、該標準翻訳テキストは、翻訳対象のオーディオに対応するテキスト情報であり、例えば、トレーニングサンプルである翻訳対象のオーディオは、「おかけさまで元気です」であり、それに応じて、該トレーニングサンプルに対応する標準ラベルは、「おかけさまで元気です」又は「Ｉａｍｆｉｎｅ，ｔｈａｎｋｙｏｕ」であってよく、該標準ラベルは、ニューラルネットワークモデルの実現すべき具体的な機能に応じて決定されてよい。

なお、上記トレーニングサンプル及びその対応するラベルは、いくつかの例に過ぎず、実際の応用において、他のデータをトレーニングサンプルとして収集し、該トレーニングサンプルに対応する標準ラベルを取得し、さらに、該標準ラベルに基づいて該トレーニングサンプルに対応する標準ラベルベクトルを決定してもよい。

なお、上記トレーニングサンプルは、通常、規則的に配列された一組の要素からなり、すなわち、該トレーニングサンプルは、要素シーケンスとして表現されてよく、Ｉ個の要素からなるトレーニングサンプルを例として、トレーニングサンプルは、Ｘ＝｛ｘ_１，ｘ_２，ｘ_３，…，ｘ_Ｉ｝と表すことができ、該トレーニングサンプルの長さがＩであり、例えば、トレーニングサンプルである翻訳対象のテキストが「今日は月曜日である」であれば、それに応じて、該トレーニングサンプルは、｛今，日，は，月，曜，日，で，あ，る｝と表現することができる。また、例えば、トレーニングサンプルである翻訳対象のテキストが「ＴｏｄａｙｉｓＭｏｎｄａｙ」であれば、それに応じて、該トレーニングサンプルは、｛Ｔｏｄａｙ，ｉｓ，Ｍｏｎｄａｙ｝と表現することができる。

ステップ２０２では、サーバは、トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルに入力し、該ニューラルネットワークモデルは複数の注意ネットワークを含む。

サーバは、トレーニングサンプルセットを取得した後に、トレーニングサンプルセット中のサンプルをニューラルネットワークモデルに一々入力し、つまり、トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに一々入力し、トレーニングサンプルセット中のトレーニングサンプルを利用してニューラルネットワークモデルをトレーニングし、該ニューラルネットワークモデルは、予め構築されたネットワークモデルであり、異なる特徴情報を取り込むネットワークである複数の注意ネットワークを含む。

なお、上記ニューラルネットワークモデルは、回帰型ニューラルネットワークモデル（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）、ニューラルネットワーク機械翻訳モデル（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ、ＮＭＴ）、エンコーダ－デコーダ（Ｅｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒ）などのニューラルネットワークモデルであってよく、ここではニューラルネットワークモデルの構成を具体的に限定しない。

なお、各注意ネットワークは、それぞれ異なるサブ空間に対応し、すなわちサブ空間と注意ネットワークとが一対一に対応する関係があり、各サブ空間は、入力された要素シーケンスに対して注意関数演算を適宜行うことにより、対応するクエリ（ｑｕｅｒｙ）ベクトル列、キー（ｋｅｙ）ベクトル列及び値（ｖａｌｕｅ）ベクトル列を出力し、上記注意関数は、具体的には、線形変換であってよく、線形変換が、１つのベクトル空間に属するベクトルを他のベクトル空間にマッピングすることができ、ベクトル空間が同じ次元の複数のベクトルからなる集合である。

具体的に実装する場合、サーバがトレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルに入力した後、ニューラルネットワークモデルは、そのうちの第１層のネットワーク構成を利用して、トレーニングサンプルに対応する要素シーケンスを、対応するソースベクトル列に変換し、すなわち離散した要素を連続した空間表現に変換することができ、該ソースベクトル列が、トレーニングサンプルに対応する要素シーケンス中の各要素に対応するソースベクトルからなり、該ソースベクトル列が、Ｚ＝｛ｚ_１，ｚ_２，ｚ_３，…，ｚ_Ｉ｝と表現することができる。例えば、ニューラルネットワークモデルの第１層のネットワーク構成は、トレーニングサンプルに対応する要素シーケンス中の第ｉ個の要素ｘ_ｉを１つのｄ次元の列ベクトルｚ_ｉに変換し、さらに、要素シーケンス中の各要素のそれぞれに対応する列ベクトルを組み合わせて、Ｉ個のｄ次元の列ベクトルからなるベクトル列である、該トレーニングサンプルに対応するソースベクトルを取得する。

可能な一実現態様では、ニューラルネットワークモデルがトレーニングサンプルを対応するソースベクトル列に変換した後に、ニューラルネットワークモデル中の各注意ネットワークは、それぞれソースベクトル列を異なる各サブ空間にマッピングし、各サブ空間によりソースベクトル列に対して注意関数演算を行って、その対応するクエリベクトル列、キーベクトル列及び値ベクトル列を取得することができる。各注意ネットワークがｉ個のサブ空間を含み、各サブ空間が３つの異なる学習可能パラメータ行列Ｗ_ｉ ^Ｑ、Ｗ_ｉ ^ｋ及びＷ_ｉ ^Ｖを含み、これらの３つの学習可能パラメータ行列を利用してソースベクトル列を線形変換し、クエリベクトル列Ｑ_ｉ、キーベクトル列Ｋ_ｉ及び値ベクトル列Ｖ_ｉを取得すると仮定すると、具体的な線形変換のプロセスは、以下のとおりである。

Ｑ_ｉ＝ｚ_ｉ＊Ｗ_ｉ ^Ｑ
Ｋ_ｉ＝ｚ_ｉ＊Ｗ_ｉ ^Ｋ
Ｖ_ｉ＝ｚ_ｉ＊Ｗ_ｉ ^Ｖ
ここで、第ｉ個のサブ空間から出力されるクエリベクトル列Ｑ、キーベクトル列Ｋ及び値ベクトル列Ｖは、それぞれ、Ｑ_ｉ、Ｋ_ｉ及びＶ_ｉであり、トレーニングサンプルＸ＝｛ｘ_１，ｘ_２，ｘ_３，…，ｘ_Ｉ｝は、Ｉ個の要素を含み、ソースベクトル列Ｚ＝｛ｚ_１，ｚ_２，ｚ_３，…，ｚ_Ｉ］における各要素は、ｄ次元の列ベクトルであり、すなわち、ＺはＩ個のｄ次元のベクトルからなるベクトル列であり、Ｉ＊ｄの行列と表記することができ、学習可能パラメータ行列Ｗ_ｉ ^Ｑ、Ｗ_ｉ ^ｋ及びＷ_ｉ ^Ｖがｄ＊ｄの行列であれば、クエリベクトル列Ｑ、キーベクトル列Ｋ及び値ベクトル列Ｖは、Ｉ＊ｄの行列である。ここで、Ｉ又はｄは、１以上の、いずれか１つの正の整数である。

別の可能な実施形態では、ニューラルネットワークモデルは、トレーニングサンプルを対応するソースベクトル列に変換した後に、まず、３つの異なる学習可能パラメータ行列Ｗ^Ｑ、Ｗ^Ｋ及びＷ^Ｖを利用して、ソースベクトル列Ｚを線形変換して、クエリベクトルベースシーケンスｑ、キーベクトルベースシーケンスｋ及び値ベクトルベースシーケンスｖを取得し、具体的には、線形変換のプロセスは、以下のとおりである。

ｑ＝Ｚ＊Ｗ^Ｑ
ｋ＝Ｚ＊Ｗ^Ｋ
ｖ＝Ｚ＊Ｗ^Ｖ
ここで、トレーニングサンプルＸ＝｛ｘ_１，ｘ_２，ｘ_３，…，ｘ_Ｉ｝は、Ｉ個の要素を含み、ソースベクトル列Ｚ＝｛ｚ_１，ｚ_２，ｚ_３，…，ｚ_Ｉ｝における各要素はｄ次元の列ベクトルであり、すなわち、ＺはＩ個のｄ次元の列ベクトルからなるベクトル列であり、Ｉ＊ｄの行列と表記することができ、学習可能パラメータ行列Ｗ_ｉ ^Ｑ、Ｗ_ｉ ^ｋ及びＷ_ｉ ^Ｖがｄ＊ｄの行列であれば、クエリベクトルベースシーケンスq、キーベクトルベースシーケンスk及び値ベクトルベースシーケンスvは、Ｉ＊ｄの行列である。ここで、Ｉ又はｄは、１以上の、いずれか１つの正の整数である。

そして、ニューラルネットワークにおける各注意ネットワークを介して、クエリベクトルベースシーケンスｑ、キーベクトルベースシーケンスｋ及び値ベクトルベースシーケンスｖを各サブ空間にそれぞれマッピングし、各サブ空間により、クエリベクトルベースシーケンスｑ、キーベクトルベースシーケンスｋ及び値ベクトルベースシーケンスｖに対して注意関数演算を行うことにより、対応するクエリベクトル列Ｑ、キーベクトル列Ｋ及び値ベクトル列Ｖを取得し、具体的な計算プロセスは、以下のとおりである。

Ｑ_ｉ＝ｑ＊Ｗ_ｉ ^Ｑ
Ｋ_ｉ＝ｋ＊Ｗ_ｉ ^Ｋ
Ｖ_ｉ＝ｖ＊Ｗ_ｉ ^Ｖ
第ｉ個のサブ空間から出力されるクエリベクトル列Ｑ、キーベクトル列Ｋ及び値ベクトル列Ｖは、それぞれ、Ｑ_ｉ、Ｋ_ｉ及びＶ_ｉであり、ここで、各サブ空間の学習可能パラメータ行列Ｗ_ｉ ^Ｑ、Ｗ_ｉ ^ｋ及びＷ_ｉ ^Ｖは同じではない。

各サブ空間のそれぞれに対応するクエリベクトル列、キーベクトル列及び値ベクトル列を取得した後に、各サブ空間において、それぞれドット積を用いてクエリと各キー値ペアとの間の論理類似度をモデリングすることができ、具体的には論理類似度ｅを計算する公式は、以下のとおりである。

ここで、ｅ_ｉが第ｉ個のサブ空間に対応する論理類似度であり、Ｋ_ｉ ^Ｔが第ｉ個のサブ空間のキーベクトル列Ｋ_ｉの転置であり、Ｑ_ｉが第ｉ個のサブ空間のクエリベクトル列であり、ｄがニューラルネットワークモデルの隠れ状態ベクトルの次元であり、該ｄが固定のパラメータであり、ｉ又はｄが１以上の、いずれか１つの正の整数である。

そして、ドット積を用いて計算して得られた論理類似度を利用してｓｏｆｔｍａｘ非線形変換を行い、論理類似度を、クエリと各キー値ペアとの間の重み関係に変換し、具体的には論理類似度を重み関係に変換する公式は、以下のとおりである。

α_ｉ＝ｓｏｆｔｍａｘ（ｅ_ｉ）
ここで、α_ｉが第ｉ個のサブ空間に対応する重み関係であり、ｅ_ｉが第ｉ個のサブ空間に対応する論理類似度であり、ｓｏｆｔｍａｘ関数が指数正規化関数である。

さらに、上記計算して得られた重み関係を利用して、各サブ空間に対応する値ベクトル列に対して重み付け処理を適宜行って、各サブ空間のそれぞれに対応する出力ベクトルを取得し、該出力ベクトルが注意ネットワークの出力ベクトルであり、具体的な重み付け処理の公式は、以下のとおりである。

Ｏ_ｉ＝α_ｉ・Ｖ_ｉ
ここで、Ｏ_ｉが第ｉ個のサブ空間に対応する出力ベクトルであり、すなわち、第ｉ個の注意ネットワークに対応する出力ベクトルであり、α_ｉが第ｉ個のサブ空間に対応する重み関係であり、Ｖ_ｉが第ｉ個のサブ空間に対応する値ベクトル列であり、ｉが１以上の、いずれか１つの正の整数である。

ステップ２０３では、サーバは、上記ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。

ニューラルネットワークモデルは、各注意ネットワークのそれぞれに対応する出力ベクトルを取得した後、各注意ネットワークのそれぞれの出力ベクトルをさらに非線形変換し、非線形変換により各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを取得する。

本願は、構造が簡単でモデリングしやすく、また、余分の計算リソースを可能な限り減少させるなどの観点から、複数の注意ネットワークのそれぞれの出力ベクトルを融合するために、主に、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うことと、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことと、双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うこととの３種類の非線形変換方式を提供する。以下、後続の実施形態では、この３種類の非線形変換方式を具体的に説明する。

実際の応用においては、他の非線形変換の方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得してもよく、ここでは、利用可能な非線形変換方式を具体的に限定しないことを理解されたい。

ステップ２０４では、サーバは、ニューラルネットワークモデルが特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得する。

サーバは、ニューラルネットワークモデルにより、複数の注意ネットワークに対応する特徴融合ベクトルを取得した後に、さらに該ニューラルネットワークモデルを利用して、特徴融合ベクトルに対して対応する処理を行って、該特徴融合ベクトルに基づいてトレーニングサンプルに対応する予測ラベルベクトルを生成し、該予測ラベルベクトルをさらに変換すれば予測ラベルを取得することができる。

予測ラベルが上記標準ラベルと同じタイプのデータであり、例えば、標準ラベルがトレーニングサンプルに対応する標準翻訳中国語テキストであれば、予測ラベルは、該ニューラルネットワークモデルがトレーニングサンプルに対して一連の処理を行って得られた中国語テキストであることを理解されたい。それに応じて、予測ラベルベクトルと標準ラベルベクトルとのデータタイプも同じタイプであるため、両者を比較することができる。

ステップ２０５では、サーバは、トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する。

サーバは、ニューラルネットワークモデルから出力された予測ラベルベクトルを取得した後に、さらに、該トレーニングサンプルに対応する予測ラベルベクトルと、該トレーニングサンプルに対応する標準ラベルベクトルとを比較して、予測ラベルベクトルと標準ラベルベクトルとの比較結果を決定し、さらに、該比較結果に基づいて、ニューラルネットワークモデルのモデルパラメータを反復調整し、モデルパラメータを反復調整することによりニューラルネットワークモデルを段階的に収束させ、すなわち、ニューラルネットワークモデルの性能を段階的に最適化し、ニューラルネットワークモデルが収束条件を満たす場合、すなわち、ニューラルネットワークモデルの性能が所定の基準に達した場合、現在のニューラルネットワークモデルのモデル構成及びモデルパラメータに基づいて、ターゲットニューラルネットワークモデルを決定することができる。

具体的には、ニューラルネットワークモデルのモデルパラメータを調整する場合、サーバは、トレーニングサンプルに対応する予測ラベルベクトルと、該トレーニングサンプルに対応する標準ラベルベクトルとの比較結果に基づいて、損失関数を決定することができ、該損失関数を最小化することを目指して、該ニューラルネットワークモデルのモデルパラメータを反復調整し、損失関数が最小になる場合、現在のニューラルネットワークモデルが収束条件を満たしていると判断し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとすることができる。

上記パラメータの調整プロセスにおいて、換言すれば、サーバは、トレーニングサンプルに対応する予測ラベルベクトルと、該トレーニングサンプルに対応する標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定することができ、該損失関数値がターゲット閾値より大きければ、該ニューラルネットワークモデルのモデルパラメータを反復調整し、該損失関数値が該ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たしていると判断し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとすることができる。ここで、該ターゲット閾値は、いずれか１つの０以上１以下の数値である。

上記ニューラルネットワークモデルが収束条件を満たすか否かを具体的に判断する場合、トレーニングサンプルセット中のトレーニングサンプルを利用してニューラルネットワークモデルに対して第１回のトレーニング及び最適化を行って得られたモデルである第１のモデルを、テストサンプルを利用して検証してよく、具体的には、サーバは、テストサンプルを該第１のモデルに入力し、該第１のモデルを利用してテストサンプルを適宜処理し、処理プロセスにおいて、第１のモデルは、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、該特徴融合ベクトルに基づいて、該テストサンプルに対応する予測ラベルベクトルを生成し、さらに、該予測ラベルベクトルと、該テストサンプルに対応する標準ラベルベクトルとに基づいて予測精度を計算し、該予測精度が第１の所定の閾値より大きい場合、該第１のモデルが収束条件を満たすと考えられ、この場合、モデル性能が良く、実際のニーズを満たすことができ、それに応じて、該第１のモデルのモデルパラメータとモデル構成とに基づいて、ターゲットニューラルネットワークモデルを生成することができる。

また、ニューラルネットワークモデルが収束条件を満たすか否かを判断する場合、複数回トレーニングされた複数のモデルに基づいて、ニューラルネットワークモデルのトレーニングを継続するか否かを決定して、モデル性能が最適なニューラルネットワークモデルを取得してもよい。具体的には、テストサンプルを利用して、複数回トレーニングされた複数のニューラルネットワークモデルをそれぞれ検証し、毎回トレーニングして得られたニューラルネットワークモデルの予測精度の差が第２の所定の閾値より小さいか否かを判断し、小さければ、ニューラルネットワークモデルの性能が向上する余地がないと考えられ、予測精度が最も高いニューラルネットワークモデルをターゲットニューラルネットワークモデルとして選択し、逆には、大きければ、ニューラルネットワークモデルの性能が向上する余地があると考えられ、モデル性能が最も安定し最適なニューラルネットワークモデルが得られるまで、該ニューラルネットワークモデルを継続してトレーニングしてもよい。

なお、上記第１の所定の閾値及び第２の所定の閾値は、いずれも実際の状況に応じて設定することができ、ここでは該第１の所定の閾値及び第２の所定の閾値の値を具体的に限定しない。

上記ニューラルネットワークモデルのトレーニング方法において、ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを線形連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。

上記実施形態で説明したように、本願の実施形態に係るニューラルネットワークのトレーニング方法は、複数の注意ネットワークのそれぞれの出力ベクトルを対応する特徴融合ベクトルに融合する場合、非線形変換の方式を用い、本願は、主に、３種類の非線形変換の方式を提供し、第１種は、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うことであり、第２種は、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことであり、第３種は、双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことであり、以下、実施形態によりこの３種類の非線形変換の方式をそれぞれ具体的に説明する。

まず、上記第１種の非線形変換の方式（すなわち、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うこと）を具体的に説明する。図３を参照すると、図３は、このような非線形変換方式に対応するフローチャートである。図３に示すように、該方法は、以下のステップ３０１～３０４を含む。

ステップ３０１では、サーバは、複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックする。

本願の実施形態は、１枚の二次元の特徴マップを例として説明し、上記二次元の特徴マップは、１枚以上であってもよく、本願の実施形態は、特徴マップの数を具体的に限定しない。

ニューラルネットワークモデルは、複数の注意ネットワークのそれぞれの出力ベクトルを取得した後に、各出力ベクトルを並べてスタック（ｓｔａｃｋ）して、１枚の二次元の特徴マップを取得する。理解を容易にするために、以下、図４を参照しながら本実施形態における各ステップの実現プロセスを説明し、図４は、このような非線形変換方式に対応する原理概略図であり、図４に示すように、４０１、４０２、４０３は、それぞれ各注意ネットワークの出力ベクトルであり、ステップ３０１では、ニューラルネットワークモデルは、並べてスタックする方式を用いて出力ベクトル４０１、出力ベクトル４０２及び出力ベクトル４０３を１枚の二次元の特徴マップ４０４としてスタックする。

図４に示すものは、一例に過ぎず、実際の応用において、ニューラルネットワークモデルに含まれる注意ネットワークは、３つに限定されず、それに応じて、注意ネットワークに対応する出力ベクトルも３つに限定されず、つまり、実際の応用において、ニューラルネットワークモデルは、上記並べてスタックする方式を用いて若干の出力ベクトルを二次元の特徴マップとしてスタックすることができ、ここでは出力ベクトルの数を限定しない。

ステップ３０２では、サーバは、畳み込みニューラルネットワークを介して該特徴マップから特徴を抽出して、３次元テンソルを取得する。

さらに、ニューラルネットワークモデルは、畳み込みネットワークを介して、上記各出力ベクトルを並べてスタックして得られた二次元の特徴マップに対して特徴抽出を行って、その対応する３次元テンソルを取得する。図４に示すように、ニューラルネットワークモデルは、出力ベクトルを並べてスタックして構成された二次元の特徴マップ４０４に対して畳み込み処理を行うことにより、該二次元の特徴マップ４０４の特徴を抽出して、３次元テンソル４０５を取得する。

可能な一実現態様では、ニューラルネットワークモデルは、畳み込みニューラルネットワークを用いて特徴マップに対して畳み込み操作を行って、３次元テンソルを取得することができる。畳み込みニューラルネットワークは、順伝播型ニューラルネットワークであり、その中の人工ニューロンは、周辺ユニットに応じて、特徴マップに対して畳み込み処理を行うことにより、特徴マップの特徴を抽出して、３次元テンソルを取得することができる。

別の可能な一実現態様では、異なるサイズの特徴マップについて、最後に出力された３次元テンソルに対応する次元がいずれも同じであることを確保するために、ニューラルネットワークモデルは、畳み込みニューラルネットワークを用いて、特徴マップに対して畳み込みとプーリング操作を行って、３次元テンソルを取得してもよい。つまり、前の実現態様と比較して、畳み込みニューラルネットワークにプーリング層を追加しており、該プーリング層を利用して畳み込み層の出力に対してダウンサンプリング処理を行い、プーリングのプロセスは、実際に畳み込み層に対して領域を分けて最大値を求めるか、又は各畳み込み層に対して最大値を求める処理プロセスである。

なお、畳み込みニューラルネットワークに導入される追加パラメータ及びトレーニングオーバーヘッドを抑制するために、１層のみの畳み込み層を含む畳み込みニューラルネットワークを利用して上記ステップ３０２を実行してよく、当然のことながら、より高い特徴抽出効果を達成するために、複数層の畳み込み層を含む畳み込みニューラルネットワークを用いて上記ステップ３０２を実行してもよく、ここでは、用いられる畳み込みニューラルネットワークに含まれる畳み込み層の数を何ら限定しない。

ステップ３０３では、サーバは、３次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得する。

本願の実施形態は、１つの一次元ベクトルを例として説明し、上記一次元ベクトルの数は、１つ以上であってもよく、本願の実施形態は、一次元ベクトルの数を具体的に限定しない。

畳み込みニューラルネットワークを介して処理して３次元テンソルを取得した後に、ニューラルネットワークモデルは、さらに該３次元テンソルに対してシリアライズ処理を行って、該３次元テンソルを一次元ベクトルに変換する。図４に示すように、ニューラルネットワークモデルは、３次元テンソル４０５に対してシリアライズ処理を行って、一次元ベクトル４０６に変換する。

ステップ３０４では、サーバは、一次元ベクトルを線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。

最終的には、上記ステップ３０３で得られた一次元ベクトルを線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。

上記畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行う方式は、畳み込みニューラルネットワークが画像特徴を抽出することにおける成功を参考にして、複数の注意ネットワークのそれぞれの出力ベクトルに対する特徴融合に適用して、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現がより良いことを確保することができる。

畳み込みが局所的な操作であり、局所的な特徴元素のみが畳み込み層中の畳み込みカーネルにより直接的に相互作用させられることができるため、複数の注意ネットワークのそれぞれの出力ベクトル中の全ての要素を直接的に相互作用させるために、本願の実施形態は、第２種の非線形変換方式、すなわち、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式をさらに提供し、双線形モデルは、１つの外積操作と１つの線形マッピングとからなり、各注意ネットワークのそれぞれの出力ベクトル中の全ての要素が二次の完全な相互作用が可能であることを確保することができる。

図５を参照すると、図５は、このような非線形変換方式に対応するフローチャートである。図５に示すように、該方法は、以下のステップ５０１～５０４を含む。

ステップ５０１では、サーバは、複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得する。

ニューラルネットワークモデルは、各注意ネットワークのそれぞれの出力ベクトルを取得した後に、各注意ネットワークの出力ベクトルを連結して第１のベクトルを取得し、例えば、ニューラルネットワークモデルに３つの注意ネットワークが含まれ、かつ各注意ネットワークの出力ベクトルがいずれも１０＊１０のベクトルであれば、各注意ネットワークの出力ベクトルを連結して１つの１０＊３０の第１のベクトルを取得する。

各注意ネットワークのそれぞれの出力ベクトルがそれぞれＯ_１、Ｏ_２、…Ｏ_ｈであると仮定すると、これらの出力ベクトルを連結して第１のベクトル

を取得する実現式は、以下のとおりである。

ここで、［］はベクトル連結を表す。

理解を容易にするために、以下、図６を参照しながら本実施形態における各ステップの実現プロセスを説明し、図６は、このような非線形変換方式に対応する原理概略図である。図６に示すように、６０１、６０２、６０３は、それぞれ各注意ネットワークの出力ベクトルであり、ステップ５０１では、ニューラルネットワークモデルは、出力ベクトル６０１、出力ベクトル６０２及び出力ベクトル６０３を連結して、第１のベクトル６０４を取得する。

図６に示すものは、一例に過ぎず、実際の応用において、ニューラルネットワークモデルに含まれる注意ネットワークは、３つに限定されず、それに応じて、注意ネットワークに対応する出力ベクトルも３つに限定されず、つまり、実際の応用において、ニューラルネットワークモデルは、３つの出力ベクトルを連結する必要があるだけでなく、ここでは出力ベクトルの数を何ら限定しない。

ステップ５０２では、サーバは、該第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得する。

さらに、ニューラルネットワークモデルは、第１のベクトルに対してそれぞれマッピングを２回行って第２のベクトル及び第３のベクトルを取得し、すなわち、双線形モデルを利用して第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得する。

なお、ニューラルネットワークモデルは、第１のベクトルに対して線形マッピングを２回行うことにより、それぞれ第２のベクトル及び第３のベクトルを取得してよく、すなわち、第１のベクトルに対して線形変換を１回実行して第２のベクトルを取得し、第１のベクトルに対して別の線形変換を１回実行して第３のベクトルを取得し、当然のことながら、第１のベクトルに対してそれぞれ非線形マッピングを２回行うことにより、第２のベクトル及び第３のベクトルを取得してもよく、すなわち、第１のベクトルに対して非線形変換を１回実行して第２のベクトルを取得し、第１のベクトルに対して別の非線形変換を１回実行して第３のベクトルを取得し、ここでは具体的なマッピング方式を何ら限定しない。

第１のベクトルに対して線形マッピングを行う場合、第１のベクトルに対して２回線形マッピングを行う具体的な公式は、以下のとおりである。

ここで、

が第２のベクトルであり、Ｕが第１回の線形マッピングに対応するマッピングパラメータであり、

が第３のベクトルであり、Ｖが第２回の線形マッピングに対応するマッピングパラメータであり、

が第１のベクトルであり、

が第１のベクトル

の転置である。

図６に示すように、異なるマッピングパラメータＵ及びＶを利用してそれぞれ第１のベクトル６０４に対して線形マッピングを行って、第２のベクトル６０５及び第３のベクトル６０６を取得する。

ステップ５０３では、サーバは、第２のベクトルと第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得する。

そして、ニューラルネットワークモデルは、第２のベクトルと第３のベクトルとを要素に応じて対応させて乗算して第４のベクトルを取得し、このような乗算方式により、第２のベクトル及び第３のベクトル中の各要素を十分に相互作用させる。

第４のベクトルを具体的に計算する公式は、以下のとおりである。

ここで、Ｏ’が第４のベクトルであり、

が第２のベクトルであり、

が第３のベクトルである。

図６に示すように、ニューラルネットワークモデルは、第２のベクトル６０５と第３のベクトル６０６とを要素に応じて対応させて乗算する方式により、第４のベクトル６０７を取得する。

ステップ５０４では、サーバは、第４のベクトルに対して線形マッピングを行って、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。

最終的に、第４のベクトルに対して線形マッピングを行うことにより、ニューラルネットワークモデル中の複数の注意ネットワークに対応する特徴融合ベクトルを取得する。

具体的には、第４のベクトルに対して線形マッピングを行う公式は以下のとおりである。

Ｏ＝Ｏ’＊Ｐ
ここで、Ｏが特徴融合ベクトルであり、Ｏ’が第４のベクトルであり、Ｐが線形マッピングパラメータである。

図６に示すように、ニューラルネットワークモデルは、第４のベクトル６０７に対して線形マッピング処理を行って、最終的に特徴融合ベクトル６０８を取得する。

上記双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式は、低次双線形モデルを適用して元の双線形モデルに近似し、各注意ネットワークのそれぞれの出力ベクトル中の全ての要素同士がいずれも二次相互作用可能であることを確保することにより、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることで、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現がより良いことを確保することができる。

発明者らは、実験研究により、二次相互作用と一次相互作用との間に相補的な促進の関係があることを見出し、それに応じて、二次相互作用と一次相互作用とを同時に考慮に入れることはより効率的な特徴融合機構をもたらす可能性があるため、本願の実施形態は、第３種の非線形変換方式、すなわち、双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式を提供することにより、複数の注意ネットワークの出力ベクトルの全ての要素の二次関係と一次関係とを同時にモデリングする。

図７を参照すると、図７は、このような非線形変換方式に対応するフローチャートである。図７に示すように、該方法は、以下のステップ７０１～７０５を含む。

ステップ７０１では、サーバは、複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得する。

ステップ７０２では、サーバは、該第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得する。

ステップ７０３では、サーバは、第２のベクトル及び第３のベクトルを要素に応じて対応させて乗算して、第４のベクトルを取得する。

上記ステップ７０１～ステップ７０３の具体的な実現プロセスは、図５に示すステップ５０１～ステップ５０３の具体的な実現プロセスと類似し、詳細については、上記ステップ５０１～ステップ５０３の関連説明を参照し、ここでは説明を省略する。

図７に示す非線形変換方式を容易に理解するために、以下、図８を参照しながらこのような変換方式における各ステップの実現プロセスを説明し、図８は、このような非線形変換方式に対応する原理概略図である。

図８に示すように、８０１、８０２、８０３は、それぞれ各注意ネットワークの出力ベクトルであり、ニューラルネットワークモデルは、ステップ７０１により、出力ベクトル８０１、出力ベクトル８０２及び出力ベクトル８０３を連結して、第１のベクトル８０４を取得し、次に、ステップ７０２により、異なるマッピングパラメータＵ及びＶを利用して、それぞれ第１のベクトル８０４に対して線形マッピングを行うことにより、第２のベクトル８０５及び第３のベクトル８０６を取得し、そして、ステップ７０３により、第２のベクトル８０５及び第３のベクトル８０６とを要素に応じて対応させて乗算して、第４のベクトル８０７を取得する。

ステップ７０４では、サーバは、第４のベクトルと第１のベクトルとを融合して、第５のベクトルを取得する。

ニューラルネットワークモデルは、第２のベクトル及び第３のベクトルを要素に応じて乗算して第４のベクトルを取得した後に、さらに、該第４のベクトルと、ステップ７０１で出力ベクトルを連結して得られた第１のベクトルとを融合して、第５のベクトルを取得する。

具体的に第４のベクトルと第１のベクトルとを融合する場合に、ニューラルネットワークモデルは、第４のベクトルと第１のベクトルとを順に連結して第５のベクトルを取得し、すなわち、ステップ７０１での連結方式に従って第４のベクトルと第１のベクトルとを連結してもよく、ニューラルネットワークモデルは、第４のベクトルと第１のベクトルとを要素の位置に応じて対応させて第５のベクトルを取得し、すなわち、ステップ７０３での乗算方式に従って第４のベクトルと第１のベクトルとを要素の位置に応じて対応させて乗算して第５のベクトルを取得してもよく、ニューラルネットワークモデルは、第４のベクトルと第１のベクトルとを要素の位置に応じて対応させて加算する方式により、第５のベクトルを取得し、すなわち、第４のベクトル及び第１のベクトル中の、位置が対応する要素を加算してもよい。

順に連結する方式を用いて第５のベクトルを取得する場合、具体的な計算式は、以下のとおりである。

ここで、［］がベクトル連結を表し、Ｏ”が第５のベクトルであり、

が第４のベクトルであり、

が第１のベクトルである。

図８に示すように、ニューラルネットワークモデルは、第４のベクトル８０７と第１のベクトル８０４とを順に連結して、第５のベクトル８０８を取得する。

ステップ７０５では、サーバは、第５のベクトルに対して線形マッピングを行って、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。

最終的に、第５のベクトルに対して線形マッピングを行うことにより、ニューラルネットワークモデル中の複数の注意ネットワークに対応する特徴融合ベクトルを取得する。

具体的には、第５のベクトルに対して線形マッピングを行う公式は以下のとおりである。

Ｏ＝Ｏ”＊Ｐ
ここで、Ｏが特徴融合ベクトルであり、Ｏ”が第５のベクトルであり、Ｐが線形マッピングパラメータである。

図８に示すように、ニューラルネットワークモデルは、第５のベクトル８０８に対して線形マッピング処理を行って、最終的に特徴融合ベクトル８０９を取得する。

上記双線形モデルとベクトル連結を同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式は、二次相互作用と一次相互作用との相補的な促進の関係を考慮に入れると共に、二次相互作用と一次相互作用がより効率的な特徴融合機構をもたらすことができることを考慮に入れるため、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現がより良いことを確保することができる。

なお、上記ニューラルネットワークモデルは、実際の応用において、機械翻訳モデルであってよく、該機械翻訳モデルはエンコーダとデコーダとを含み、エンコーダは、カスケード接続されたＮ個の第１タイプのネットワークブロックを含み、各第１タイプのネットワークブロックは、カスケード接続された１つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層を含み、デコーダは、カスケード接続されたＮ個の第２タイプのネットワークブロックを含み、各第２タイプのネットワークブロックは、カスケード接続された２つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層を含み、ここで、Ｎは１以上の正の整数である。

機械翻訳モデルは、翻訳対象のコンテンツを対応する翻訳テキストに翻訳するモデルであり、例えば、翻訳対象の中国語テキストを対応する英語テキストに翻訳するモデルであり、該機械翻訳モデルは、具体的には、ニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ、ＮＭＴ）モデルであってよい。

図９を参照すると、図９は、本願の実施形態に係る機械翻訳モデルの概略構成図である。図９に示すように、エンコーダ９１００には、カスケード接続されたＮ個の第１タイプのネットワークブロック９１１０が含まれ、各第１タイプのネットワークブロック９１１０は、カスケード接続された１つのマルチヘッド注意ネットワーク層９１１１及び１つの順伝播型ニューラルネットワーク層９１１２を含み、マルチヘッド注意ネットワーク層９１１１には、複数の注意ネットワーク及び入出力加算層が含まれ、順伝播型ニューラルネットワーク層９１１２には、非線形変換層及び入出力加算層が含まれる。デコーダ９２００には、カスケード接続されたＮ個の第２タイプのネットワークブロック９２１０が含まれ、各第２タイプのネットワークブロック９２１０は、カスケード接続された２つのマルチヘッド注意ネットワーク層９２１１及び９２１２と、１つの順伝播型ニューラルネットワーク層９２１３とを含み、デコーダ９２００中のマルチヘッド注意ネットワーク層９２１１及び９２１２には、複数の注意ネットワーク及び入出力加算層が含まれ、順伝播型ニューラルネットワーク層９２１３には、非線形変換層及び入出力加算層が含まれる。

エンコーダ９１００の出力は、デコーダ９２００の入力とすることができ、デコーダ９２００によって、エンコーダ９１００が出力するデータを復号化処理する。該機械翻訳モデルに対してモデルトレーニングを行う場合、エンコーダ９１００とデコーダ９２００とを同時にトレーニングすべきであり、デコーダ９２００が出力する予測翻訳テキストに対応するベクトルと、トレーニングサンプルに対応する標準ラベルベクトルとの間の類似度が所定の閾値に達する場合、該機械翻訳モデルが収束条件を満たすと考えられ、該機械翻訳モデルをターゲットニューラルネットワークモデルとすることができる。

なお、上記各マルチヘッド注意ネットワーク層は、いずれも非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルに対して特徴融合を行って、該マルチヘッド注意ネットワーク層に対応する特徴融合ベクトルを取得する。発明者らは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法によって機械翻訳モデルをトレーニングし、その分、機械翻訳モデルを取得する。バイリンガルエバリュエーションアンダースタディ（ＢｉｌｉｎｇｕａｌＥｖａｌｕａｔｉｏｎＵｎｄｅｒｓｔｕｄｙ、ＢＬＥＵ）を用いて該機械翻訳モデルをテストし、表１に示すように、該機械翻訳モデルに対応する性能テスト結果である。

ここで、論文［１］がテストサンプルであり、従来の機械翻訳モデルを用いて該テストサンプルを翻訳し、その評価結果が２７．６４点であり、該モデルに係るパラメータ数が８８Ｍ（百万）であり、該機械翻訳モデルに対するトレーニング速度が毎秒２．０４回反復するものである。モデル１は、図３に示す非線形変換方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを特徴融合ベクトルに融合し、該モデル１を利用して、テストサンプルとしての論文［１］を翻訳し、その評価結果が２８．１９点であり、該評価結果は、従来の機械翻訳モデルを用いて翻訳した評価結果に対して０．５５点向上し、該モデルに係るパラメータ数は９８Ｍであり、該モデル１に対するトレーニング速度は毎秒１．４５回反復するものである。モデル２は、図５に示す非線形変換方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを特徴融合ベクトルに融合し、モデル２を利用して、テストサンプルとしての論文［１］を翻訳し、その評価結果が２８．３５点であり、該評価結果は、従来の機械翻訳モデルを用いて翻訳した評価結果に対して０．７１点向上し、該モデルに係るパラメータ数は９７Ｍであり、該モデル２に対するトレーニング速度は毎秒１．８５回反復するものである。モデル３は、図７に示す非線形変換方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを特徴融合ベクトルに融合し、モデル３を利用して、テストサンプルとしての論文［１］を翻訳し、その評価結果が２８．５９点であり、該評価結果は、従来の機械翻訳モデルを用いて翻訳した評価結果に対して０．９５点向上し、該モデルに係るパラメータ数は１０２Ｍであり、該モデル３に対するトレーニング速度は毎秒１．７８回反復するものである。

比較により、ニューラルネットワークモデルが図３に示す非線形変換方式を用いるか、図５に示す非線形変換方式を用いるか、又は図７に示す非線形変換方式を用いるかに関わらず、本願の実施形態に係るトレーニング方法を用いてトレーニングされたニューラルネットワークモデルは、いずれも翻訳品質を効果的に向上させることができると共に、パラメータ数をわずかに増加させ、トレーニング速度を低減し、機械翻訳モデルの高効率性を確保することを見出した。

上記図９に示す機械翻訳モデルに対して、本願の実施形態は、該機械翻訳モデルを実際に適用する機械翻訳方法をさらに提供する。図１０を参照すると、図１０は、本願の実施形態に係る機械翻訳方法のフローチャートであり、説明の便宜上、以下、端末装置を実行主体として該機械翻訳方法を説明し、該機械翻訳方法が実際の応用においてサーバに適用されてよいことを理解されたい。図１０に示すように、該機械翻訳方法は、以下のステップ９０１～９０３を含む。

ステップ９０１では、端末装置は、翻訳対象のコンテンツを取得する。

なお、上記翻訳対象のコンテンツは、具体的には、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも一方であってよく、異なるタイプの翻訳対象のコンテンツが異なる適用シーンに適用されてよい。例えば、翻訳対象のコンテンツが翻訳対象のテキストである場合、該翻訳対象のテキストを対応する言語に翻訳してよく、また、例えば、翻訳対象のコンテンツが翻訳対象のビデオである場合、該翻訳対象のビデオを、該ビデオに表示されるシーンに対応するテキストに翻訳してよく、さらに、例えば、翻訳対象のコンテンツが翻訳対象のオーディオである場合、該翻訳対象のオーディオを、該オーディオに対応するテキストに翻訳してよく、又は、特定の言語に対応するテキストに翻訳してもよい。

翻訳対象のテキストについて、端末装置は、ユーザにテキスト入力ボックスを提供し、ユーザは、該テキスト入力ボックスに翻訳対象のテキストを入力し、それに応じて、端末装置は、ユーザによりテキスト入力ボックスに入力されたテキストを翻訳対象のコンテンツとして取得することができる。翻訳対象のビデオ及び／又はオーディオについて、端末装置は、ユーザにファイルのアップロード領域を提供し、ユーザは、翻訳対象のビデオ及び／又はオーディオを該翻訳対象のファイルのアップロード領域にドラッグし、それに応じて、端末装置は、ファイルのアップロード領域内にファイルが存在することを検出した場合、該ファイルを翻訳対象のコンテンツとすることができ、あるいは、端末装置は、ユーザにファイルアップロードキーを提供し、ユーザは、該ファイルアップロードキーをクリックすることにより、ファイルのアップロード操作をトリガーし、端末装置に記憶されているファイルから、翻訳対象のビデオ及び／又はオーディオを選択し、選択した翻訳対象のビデオ及び／又はオーディオをアップロードし、それにより、端末装置は、翻訳対象のコンテンツを取得することができる。

なお、該機械翻訳方法の実行主体がサーバである場合、サーバは、端末装置から翻訳対象のコンテンツを取得することができる。具体的には、サーバと端末装置とはネットワークを介して接続され、端末装置は、上記方式により翻訳対象のコンテンツを取得した後に、それに応じて、自体が取得した翻訳対象のコンテンツをネットワークを介してサーバに送信して、サーバに翻訳対象のコンテンツを取得させる。

ステップ９０２では、端末装置は、機械翻訳モデルにより該翻訳対象のコンテンツに対応する翻訳結果を取得する。

端末装置は、翻訳対象のコンテンツを取得した後に、それに応じて、翻訳対象のコンテンツを機械翻訳モデルに入力し、該機械翻訳モデルは、上記実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされたものであり、その具体的な構成は、図９を参照してよい。

機械翻訳モデルにおけるエンコーダは、回帰型ニューラルネットワークモデルであり、翻訳対象のコンテンツに対応するソースベクトル列を固定長の符号として読み取ることができ、機械翻訳モデルにおけるデコーダも回帰型ニューラルネットワークモデルであり、エンコーダの入力シーケンスを復号化して、ターゲットシーケンス、すなわち出力ラベルに対応するベクトル列を出力することができ、さらに、機械翻訳モデルは、デコーダが出力したベクトル列に基づいて出力ラベルを生成し、すなわち、翻訳対象のコンテンツに対応する翻訳結果を生成する。

なお、上記機械翻訳モデルは、マルチ注意機構に基づいて構築されたものであり、その中のエンコーダ及びデコーダにはいずれも複数の注意ネットワークが含まれ、該機械学習モデルは、エンコーダ及びデコーダにおける複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、いずれも非線形変換の方式を用い、ここでの非線形変換方式は、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルを処理することであってもよいし、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルを処理することであってもよいし、双線形モデルとベクトル連結とを適用して複数の注意ネットワークのそれぞれの出力ベクトルを処理することであってもよい。

ステップ９０３では、端末装置は、該翻訳結果を表示する。

端末装置は、機械翻訳モデルにより翻訳対象のコンテンツに対応する翻訳結果を決定した後に、該翻訳結果をユーザに直接的に表示してよい。

本実施形態に係る機械翻訳方法の実行主体がサーバである場合、サーバは、機械翻訳モデルにより翻訳対象のコンテンツに対応する翻訳結果を決定した後に、決定した翻訳結果を端末装置に送信して、端末装置により該翻訳結果をユーザに表示してよい。

本実施形態に係る機械翻訳方法は、機械翻訳モデルを適用して翻訳対象のコンテンツを翻訳し、翻訳対象のコンテンツに対応する翻訳結果を決定するものであり、適用される機械翻訳モデルは、上記実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされたものであり、該機械翻訳モデルがその中の各注意ネットワークの出力ベクトルを十分に相互作用させ、より情報量のある特徴融合ベクトルを生成することができるため、該機械翻訳モデルが最終的に出力する翻訳結果がより正確になることを確保することができる。

本願の実施形態に係るニューラルネットワークモデルのトレーニング方法をさらに理解するために、以下、サーバがテキストを翻訳するための機械翻訳モデルをトレーニングすることを例として、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を全体的に説明する。

サーバは、まず、関連付けられたデータベースからトレーニングサンプルセットを取得し、該トレーニングサンプルセットは、大量のトレーニングサンプル及びその対応する標準ラベルベクトルを含む。テキストを翻訳するための機械翻訳モデルについて、トレーニングサンプルは、翻訳対象のテキストとなるべきであり、その対応する標準ラベルは標準翻訳テキストであり、それに応じて、標準ラベルベクトルは標準翻訳テキストに対応するベクトルであることを理解されたい。

サーバは、トレーニングサンプルセットを取得した後に、トレーニングサンプルセット中のトレーニングサンプルを予め構築された機械翻訳モデルに一々入力し、該機械翻訳モデルは、注意機構に基づいて構築されたニューラルネットワークモデルであり、エンコーダ及びデコーダを含み、エンコーダは、カスケード接続された若干の第１タイプのネットワークブロックを含み、各第１タイプのネットワークブロックには、カスケード接続された１つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層が含まれ、デコーダは、カスケード接続された若干の第２タイプのネットワークブロックを含み、各第２タイプのネットワークブロックは、カスケード接続された２つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層を含む。

なお、上記第１タイプのネットワークブロック及び第２タイプのネットワークブロックに含まれるマルチヘッド注意ネットワーク層には、複数の注意ネットワークが含まれ、これらの注意ネットワークは、異なる次元から異なる特徴情報を取り込み、さらに、自体が取り込んだ特徴情報に基づいて出力ベクトルを適宜、生成することができる。

サーバは、機械翻訳モデルによりマルチヘッド注意ネットワーク層中の複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、ここでの非線形変換の方式は、具体的には、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うこと、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うこと、及び双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことであってよい。

機械翻訳モデルは、上記特徴融合ベクトルに基づいて、該トレーニングサンプルに対応する所定のラベルベクトルを生成し、さらに、該所定のラベルベクトルと該トレーニングサンプルに対応する標準ラベルベクトルとを比較して、比較結果を生成し、該比較結果に基づいて機械翻訳モデルのモデルパラメータを反復調整して、該機械翻訳モデルが収束条件を満たすまで該機械翻訳モデルの性能を段階的に最適化し、収束条件を満たす当該機械翻訳モデルをターゲット機械翻訳モデルとして、該ターゲット機械翻訳モデルを実際の応用に供することができる。

以上説明したニューラルネットワークモデルのトレーニング方法に対して、本願は、上記ニューラルネットワークモデルのトレーニング方法を実際に適用して実現するために、対応するニューラルネットワークモデルのトレーニング装置をさらに提供する。

図１１を参照すると、図１１は、図１に示す上記ニューラルネットワークモデルのトレーニング方法に対応するニューラルネットワークモデルのトレーニング装置１０００の概略構成図であり、該ニューラルネットワークモデルのトレーニング装置１０００は、
各トレーニングサンプル及びそれ（すなわち、該トレーニングサンプル）に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得するための取得モジュール１００１と、
複数の注意ネットワークを含むニューラルネットワークモデルに上記トレーニングサンプルセット中のトレーニングサンプルを入力する（すなわち、上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力する）ための入力モジュール１００２と、
上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための特徴融合ベクトル生成モジュール１００３と、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得するための予測ラベルベクトル取得モジュール１００４と、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、上記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するための取得モジュール１００５と、を含む。

任意選択で、図１１に示すニューラルネットワークモデルのトレーニング装置を基に、図１２を参照すると、図１２は、特徴融合ベクトル生成モジュール１００３の概略構成図であり、該特徴融合ベクトル生成モジュール１００３は、具体的には、
上記複数の注意ネットワークのそれぞれの出力ベクトルを１枚の二次元の特徴マップとして並べてスタックするためのスタックサブモジュール１１０１と、
畳み込みニューラルネットワークを介して上記特徴マップから特徴を抽出して、３次元テンソルを取得するための特徴抽出サブモジュール１１０２と、
上記３次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するためのシリアライズ処理サブモジュール１１０３と、
上記一次元ベクトルを線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための線形変換サブモジュール１１０４と、を含む。

任意選択で、図１２に示す特徴融合ベクトル生成モジュール１００３を基に、その中の特徴抽出サブモジュール１１０２は、具体的には、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込み操作を行って、３次元テンソルを取得するか、又は、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込みとプーリング操作を行って、３次元テンソルを取得する。

任意選択で、図１１に示すニューラルネットワークモデルのトレーニング装置を基に、図１３を参照すると、図１３は、別の特徴融合ベクトル生成モジュール１００３の概略構成図であり、該特徴融合ベクトル生成モジュール１００３は、具体的には、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するための連結サブモジュール１２０１と、
上記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するためのマッピングサブモジュール１２０２と、
上記第２のベクトルと上記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するための乗算サブモジュール１２０３と、
上記第４のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための線形マッピングサブモジュール１２０４と、を含む。

任意選択で、図１１に示すニューラルネットワークモデルのトレーニング装置を基に、図１４を参照すると、図１４は、更なる特徴融合ベクトル生成モジュール１００３の概略構成図であり、該特徴融合ベクトル生成モジュール１００３は、具体的には、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するための連結サブモジュール１３０１と、
上記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するためのマッピングサブモジュール１３０２と、
上記第２のベクトルと上記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するための乗算サブモジュール１３０３と、
上記第４のベクトルと上記第１のベクトルとを融合して、第５のベクトルを取得するための融合サブモジュール１３０４と、
上記第５のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための線形マッピングサブモジュール１３０５と、を含む。

任意選択で、上記図１３及び図１４に示す特徴融合ベクトル生成モジュールを基に、その中のマッピングサブモジュール１２０２及び１３０２は、具体的には、
上記第１のベクトルに対して線形マッピングを２回行って、第２のベクトル及び第３のベクトルを取得するか、又は、
上記第１のベクトルに対して非線形マッピングを２回行って、第２のベクトル及び第３のベクトルを取得する。

任意選択で、上記図１４に示す特徴融合ベクトル生成モジュールを基に、その中の融合サブモジュール１３０４は、具体的には、
上記第４のベクトルと上記第１のベクトルとを順に連結して、第５のベクトルを取得するか、又は、
上記第４のベクトルと上記第１のベクトルとを要素の位置に応じて対応させて乗算して、第５のベクトルを取得するか、又は、
上記第４のベクトルと上記第１のベクトルとを要素の位置に応じて対応させて加算して、第５のベクトルを取得する。

任意選択で、上記図１１に示すニューラルネットワークモデルのトレーニング装置を基に、取得モジュール１００５は、具体的には、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定し、
上記損失関数値がターゲット閾値より大きければ、上記ニューラルネットワークモデルのモデルパラメータを反復調整し、
上記損失関数値がターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとする。

任意選択で、上記ニューラルネットワークモデルは、機械翻訳モデルであり、エンコーダ及びデコーダを含み、
上記エンコーダは、カスケード接続されたＮ個の第１タイプのネットワークブロックを含み、各第１タイプのネットワークブロックは、カスケード接続された１つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層を含み、
上記デコーダは、カスケード接続されたＮ個の第２タイプのネットワークブロックを含み、各第２タイプのネットワークブロックは、カスケード接続された２つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層を含み、上記Ｎは１以上の正の整数である。

任意選択で、上記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも一方であり、上記トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである。

上記ニューラルネットワークモデルのトレーニング装置において、ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを線形連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。

以上説明した機械翻訳方法に対して、本願は、上記機械翻訳方法を実際に適用して実現するために、対応する機械翻訳装置をさらに提供する。

図１５を参照すると、図１５は、上記図１０に示す機械翻訳方法に対応する機械翻訳装置１４００の概略構成図であり、該機械翻訳装置１４００は、
翻訳対象のコンテンツを取得するための取得モジュール１４０１と、
図２～図８に示すニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルにより、上記翻訳対象のコンテンツに対応する翻訳結果を取得するための翻訳モジュール１４０２と、
上記翻訳結果を表示するための表示モジュール１４０３と、を含む。

本実施形態に係る機械翻訳装置は、機械翻訳モデルを適用して翻訳対象のコンテンツを翻訳し、翻訳対象のコンテンツに対応する翻訳結果を決定するものであり、適用される機械翻訳モデルは、上記実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされたものであり、該機械翻訳モデルがその中の各注意ネットワークの出力ベクトルを十分に相互作用させ、より情報量のある特徴融合ベクトルを生成することができるため、該機械翻訳モデルが最終的に出力する翻訳結果がより正確になることを確保することができる。

本願は、ニューラルネットワークモデルをトレーニングするためのコンピュータ装置をさらに提供し、該コンピュータ装置は、具体的には、サーバであってよく、図１６を参照すると、図１６は、本願の実施形態に係るニューラルネットワークモデルをトレーニングするためのサーバの概略構成図であり、該サーバ１５００は、構成又は性能によって大きく異る可能性があり、１つ以上の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）１５２２（例えば、１つ以上のプロセッサ）と、メモリ１５３２と、アプリケーションプログラム１５４２又はデータ１５４４を記憶する１つ以上の記憶媒体１５３０（例えば、１つ以上の大容量記憶装置）と、を含んでよい。メモリ１５３２及び記憶媒体１５３０は、一時的メモリでも永続的メモリでもよい。記憶媒体１５３０に記憶されたプログラムは、１つ以上のモジュール（図示せず）を含んでよく、各モジュールはサーバに対する一連の命令操作を含んでよい。さらに、中央処理装置１５２２は、記憶媒体１５３０と通信して、記憶媒体１５３０における一連の命令操作をサーバ１５００で実行するように構成されてよい。

サーバ１５００は、１つ以上の電源１５２６、１つ以上の有線又は無線ネットワークインタフェース１５５０、１つ以上の入出力インタフェース１５５８、及び／又は１つ以上のオペレーティングシステム１５４１、例えば、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭなどをさらに含んでよい。

上記実施形態では、サーバによって実行されるステップは、該図１６に示すサーバの構成に基づくものであってよい。

ＣＰＵ１５２２は、プログラムコードに基づいて、
トレーニングサンプル及びそれ（すなわち、該トレーニングサンプル）に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得するステップと、
複数の注意ネットワークを含むニューラルネットワークモデルに上記トレーニングサンプルセット中のトレーニングサンプルを入力する（すなわち、上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力する）ステップと、
上記ニューラルネットワークモデルにより、上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得するステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、上記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を実行する。

任意選択で、ＣＰＵ１５２２は、プログラムコードに基づいて、
上記複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックするステップと、
畳み込みニューラルネットワークを介して上記特徴マップから特徴を抽出して、３次元テンソルを取得するステップと、
上記３次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するステップと、
上記一次元ベクトルを線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行する。

任意選択で、ＣＰＵ１５２２は、プログラムコードに基づいて、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込み操作を行って、上記３次元テンソルを取得するステップ、又は、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込みとプーリング操作を行って、上記３次元テンソルを取得するステップを実行する。

任意選択で、ＣＰＵ１５２２は、プログラムコードに基づいて、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するステップと、
上記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するステップと、
上記第２のベクトルと上記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するステップと、
上記第４のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行する。

任意選択で、ＣＰＵ１５２２は、プログラムコードに基づいて、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するステップと、
上記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するステップと、
上記第２のベクトルと上記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するステップと、
上記第４のベクトルと上記第１のベクトルとを融合して、第５のベクトルを取得するステップと、
上記第５のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行する。

任意選択で、ＣＰＵ１５２２は、プログラムコードに基づいて、
上記第４のベクトルと上記第１のベクトルとを順に連結して、第５のベクトルを取得するステップ、又は、
上記第４のベクトルと上記第１のベクトルとを要素の位置に応じて対応させて乗算して、第５のベクトルを取得するステップ、又は、
上記第４のベクトルと上記第１のベクトルとを要素の位置に応じて対応させて加算して、第５のベクトルを取得するステップを実行する。

任意選択で、ＣＰＵ１５２２は、プログラムコードに基づいて、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定するステップと、
上記損失関数値がターゲット閾値より大きければ、上記ニューラルネットワークモデルのモデルパラメータを反復調整するステップと、
上記損失関数値が上記ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとするステップと、を実行する。

また、本願は、コンピュータ装置をさらに提供し、該コンピュータ装置（例えば、サーバ）は、上記図１６に示すサーバの構成と類似し、そのメモリは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、そのプロセッサは、該機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する。

本願の実施形態は、ニューラルネットワークモデルをトレーニングするための別の機器をさらに提供し、該機器は、端末装置であってよく、図１７に示すように、説明の便宜上、本願の実施形態に関連する部分のみを示し、具体的な技術的詳細を開示せず、本願の実施形態の方法の部分を参照されたい。該端末は、携帯電話、タブレット、パーソナルデジタルアシスタント（英語全称：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、英略語：ＰＤＡ）、ポイント・オブ・セールス（英語全称：ＰｏｉｎｔｏｆＳａｌｅｓ、英略語：ＰＯＳ）、車載コンピュータなどを含む任意の端末装置であってよく、端末が携帯電話であることを例とする。

図１７は、本願の実施形態に係る端末に関連する携帯電話の一部の構成のブロック図を示す。図１７を参照すると、携帯電話は、無線周波数（英語全称：ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、英略語：ＲＦ）回路１６１０、メモリ１６２０、入力ユニット１６３０、表示ユニット１６４０、センサ１６５０、オーディオ回路１６６０、ワイヤレスフィディリティー（英語全称：ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ、英訳語：ＷｉＦｉ）モジュール１６７０、プロセッサ１６８０、及び電源１６９０などの部材を含む。当業者が理解できるように、図１７に示す携帯電話の構成は、携帯電話を限定するものではなく、図示より多いか又は少ない部材を含んでもよく、ある部材を組み合わせたり、部材を異なるように配置したりしてもよい。

以下、図１７を参照しながら携帯電話の各構成部材を具体的に説明する。

ＲＦ回路１６１０は、情報の送受信、又は通話中の信号の送受信に用いられてよく、特に基地局からのダウンリンク情報を受信した後、プロセッサ１６８０に送って処理させ、また、アップリンクのデータを基地局に送信する。通常、ＲＦ回路１６１０は、アンテナ、少なくとも１つの増幅器、送受信機、カプラ、低雑音増幅器（英語全称：ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ、英略語：ＬＮＡ）、デュプレクサなどを含むが、それらに限定されない。また、ＲＦ回路１６１０は、さらに、無線通信によりネットワーク及び他の装置と通信することができる。上記無線通信は、いずれかの通信規格又はプロトコルを使用してよく、移動体通信用グローバルシステム（英語全称：ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ、英略語：ＧＳＭ）、汎用パケット無線サービス（英語全称：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、ＧＰＲＳ）、符号分割多元連結（英語全称：ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、英略語：ＣＤＭＡ）、広帯域符号分割多元連結（英語全称：ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、英略語：ＷＣＤＭＡ）、ロングタームエボリューション（英語全称：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、英略語：ＬＴＥ）、電子メール、ショートメッセージサービス（英語全称：ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ、ＳＭＳ）などを含むが、これらに限定されない。

メモリ１６２０は、ソフトウェアプログラム及びモジュールを記憶してよく、プロセッサ１６８０は、メモリ１６２０に記憶されているソフトウェアプログラム及びモジュールを実行することにより、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ１６２０は、主に、オペレーティングシステム、少なくとも１つの機能（例えば、音声再生機能、画像再生機能など）に必要なアプリケーションプログラムなどを記憶できるプログラム記憶領域と、携帯電話の使用に応じて作成されたデータ（例えば、オーディオデータ、電話帳など）などを記憶できるデータ記憶領域とを含んでよい。また、メモリ１６２０は、高速ランダムアクセスメモリを含んでよく、また、例えば少なくとも１つの磁気ディスクメモリ、フラッシュメモリ素子などの不揮発性メモリ、又は他の揮発性固体メモリ素子を含んでもよい。

入力ユニット１６３０は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。具体的には、入力ユニット１６３０は、タッチパネル１６３１及び他の入力装置１６３２を含んでよい。タッチパネル１６３１は、タッチスクリーンとも呼ばれ、タッチパネル上又はその近くでのユーザのタッチ操作（例えば、指、スタイラスペンなどの任意の適切な物体又は付属品を用いてタッチパネル１６３１上又はタッチパネル１６３１の近くでのユーザの操作）を収集し、予め設定されたパターンに基づいて対応する接続装置を駆動することができる。任意選択で、タッチパネル１６３１は、タッチ検出装置及びタッチ制御装置という２つの部分を含んでよい。タッチ検出装置は、ユーザのタッチ位置を検出し、かつタッチ操作による信号を検出し、信号をタッチ制御装置に送信し、タッチ制御装置は、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換して、プロセッサ１６８０に送信し、プロセッサ１６８０から送信されたコマンドを受信して実行することができる。また、抵抗式、容量式、赤外線式及び表面弾性波式などの多くの形態でタッチパネル１６３１を実現することができる。タッチパネル１６３１に加えて、入力ユニット１６３０は、他の入力装置１６３２をさらに含んでよい。具体的には、他の入力装置１６３２は、物理キーボード、ファンクションキー（例えば、ボリューム調節キー、スイッチボタンなど）、トラックボール、マウス、ジョイスティックなどから選ばれる１種又は複数種を含んでよいが、これらに限定されない。

表示ユニット１６４０は、ユーザが入力した情報又はユーザに提供された情報及び携帯電話の様々なメニューを表示することができる。表示ユニット１６４０は、表示パネル１６４１を含んでよく、任意選択で、液晶ディスプレイ（英語全称：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、英略語：ＬＣＤ）、有機発光ダイオード（英語全称：ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、英略語：ＯＬＥＤ）などの形態で表示パネル１６４１を構成してよい。さらに、タッチパネル１６３１は、表示パネル１６４１をカバーしてよく、タッチパネル１６３１がタッチパネル上又はその近くでのタッチ操作を検出した後、プロセッサ１６８０に送信してタッチイベントのタイプを決定し、その後に、プロセッサ１６８０は、タッチイベントのタイプに応じて対応する視覚的出力を表示パネル１６４１に提供する。図１７では、タッチパネル１６３１及び表示パネル１６４１は、２つの独立した部材として携帯電話の入出力機能を実現しているが、一部の実施形態では、タッチパネル１６３１を表示パネル１６４１と一体化して携帯電話の入出力機能を実現してよい。

携帯電話は、例えば光センサ、モーションセンサ及び他のセンサなどの少なくとも１つのセンサ１６５０をさらに含んでよい。具体的には、光センサは、環境光線の明さに応じて表示パネル１６４１の輝度を調整することができる環境光センサと、携帯電話が耳に移動するときに表示パネル１６４１及び／又はバックライトをオフにすることができる近接センサとを含んでよい。モーションセンサの一種として、加速度計センサは、各方向（一般に３軸）の加速度の大きさを検出することができ、静止時に重力の大きさや方向を検出することができ、携帯電話の姿勢（例えば、横縦向き／横向きの切替、ゲーム関連、磁力計の姿勢較正）を認識するアプリケーション、振動認識に関連する機能（例えば、歩数計、タッピング）などに用いることができ、携帯電話にはジャイロスコープ、気圧計、湿度計、温度計、赤外線センサなどの他のセンサも配置されてよく、ここでは説明を省略する。

オーディオ回路１６６０、スピーカ１６６１、マイクロフォン１６６２は、ユーザと携帯電話との間のオーディオインタフェースを提供することができる。オーディオ回路１６６０は、受信されたオーディオデータを変換した電気信号をスピーカ１６６１に伝送し、スピーカ１６６１によって音声信号に変換して出力することができる一方、マイクロフォン１６６２は、収集された音声信号を電気信号に変換し、オーディオ回路１６６０によって受信してオーディオデータに変換し、オーディオデータをプロセッサ１６８０に出力して処理した後に、ＲＦ回路１６１０により、例えば他の携帯電話に送信するか、又は更なる処理のためにオーディオデータをメモリ１６２０に出力する。

ＷｉＦｉは、短距離無線伝送技術に属し、携帯電話は、ＷｉＦｉモジュール１６７０によりユーザの電子メールの送受信、ウェブページの閲覧、ストリーミングメディアへのアクセスなどを支援することができ、ユーザに無線の広帯域インターネットアクセスを提供する。図１７は、ＷｉＦｉモジュール１６７０を示しているが、携帯電話の必須構成ではなく、必要に応じて発明の本質を変更しない範囲で省略してよいことを理解されたい。

プロセッサ１６８０は、携帯電話のコントロールセンターであり、様々なインタフェース及び回線を利用して携帯電話全体の各部分を接続し、メモリ１６２０内に記憶されたソフトウェアプログラム及び／又はモジュールを動作させるか又は実行し、メモリ１６２０内に記憶されたデータを呼び出すことにより、携帯電話の様々な機能を実行してデータを処理し、携帯電話全体を監視する。任意選択で、プロセッサ１６８０は、１つ以上の処理ユニットを含んでよく、任意選択で、プロセッサ１６８０に、主にオペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムなどを処理するアプリケーションプロセッサと、主に無線通信を処理するモデムプロセッサと、を集積することができる。上記モデムプロセッサをプロセッサ１６８０に集積しなくてもよいことを理解されたい。

携帯電話は、各部材に給電する電源１６９０（例えば、電池）をさらに含み、任意選択で、電源は、電源管理システムによりプロセッサ１６８０に論理的に接続されることにより、電源管理システムにより充電、放電、及び消費電力の管理などの機能を実現することができる。

図示しないが、携帯電話は、カメラ、ブルートゥースモジュールなどをさらに含んでよく、ここでは説明を省略する。

本願の実施形態では、該端末に含まれるプロセッサ１６８０は、
トレーニングサンプル及びそれ（すなわち、該トレーニングサンプル）に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得し、
複数の注意ネットワークを含むニューラルネットワークモデルに上記トレーニングサンプルセット中のトレーニングサンプルを入力し（すなわち、上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し）、
上記ニューラルネットワークモデルにより、上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得し、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するという機能をさらに有する。

任意選択で、プロセッサ１６８０は、さらに、本願の実施形態におけるニューラルネットワークモデルのトレーニング方法のいずれかの具体的な実現態様の方法ステップを実行することができる。

また、本願は、コンピュータ装置をさらに提供し、該コンピュータ装置（例えば、端末装置）は、上記図１７に示す端末装置の構成と類似し、そのメモリは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、そのプロセッサは、該機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する。

本願の実施形態は、コンピュータ可読記憶媒体をさらに提供し、上記各実施形態で説明したニューラルネットワークモデルのトレーニング方法のいずれかの実施態様を実行するか、又は上記実施形態で説明した機械翻訳方法を実行するためのプログラムコードを記憶する。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
トレーニングサンプルセットを取得するステップであって、上記トレーニングサンプルセットは、トレーニングサンプル及び上記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、上記ニューラルネットワークモデルにより、上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、上記予測ラベルベクトルが、上記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、上記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を実行するために用いられる。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックするステップと、
畳み込みニューラルネットワークを介して上記特徴マップから特徴を抽出して、３次元テンソルを取得するステップと、
上記３次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するステップと、
上記一次元ベクトルを線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行するために用いられる。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
畳み込みニューラルネットワークを介して上記特徴マップに対して畳み込み操作を行って、上記３次元テンソルを取得するステップ、又は、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込みとプーリング操作を行って、上記３次元テンソルを取得するステップを実行するために用いられる。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するステップと、
上記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するステップと、
上記第２のベクトルと上記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するステップと、
上記第４のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行するために用いられる。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するステップと、
上記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するステップと、
上記第２のベクトルと上記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するステップと、
上記第４のベクトルと上記第１のベクトルとを融合して、第５のベクトルを取得するステップと、
上記第５のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行するために用いられる。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記第４のベクトルと上記第１のベクトルとを順に連結して、第５のベクトルを取得するステップ、又は、
上記第４のベクトルと上記第１のベクトルとを要素の位置に応じて対応させて乗算して、第５のベクトルを取得するステップ、又は、
上記第４のベクトルと上記第１のベクトルとを要素の位置に応じて対応させて加算して、第５のベクトルを取得するステップを実行するために用いられる。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定するステップと、
上記損失関数値がターゲット閾値より大きければ、上記ニューラルネットワークモデルのモデルパラメータを反復調整するステップと、
上記損失関数値が上記ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとするステップと、を実行するために用いられる。

任意選択で、該記憶媒体に記憶されたプログラムコードは、
翻訳対象のコンテンツを取得するステップと、
機械翻訳モデルにより、上記翻訳対象のコンテンツに対応する翻訳結果を取得するステップであって、上記機械翻訳モデルが、上記各実施形態で説明したモデルトレーニング方法でトレーニングされたものである、ステップと、
上記翻訳結果を表示するステップと、を実行するために用いられる。

本願の実施形態は、コンピュータ上で実行されると、コンピュータに、上記各実施形態で説明したニューラルネットワークモデルのトレーニング方法のいずれかの実施態様を実行させるか、又は、上記実施形態で説明した機械翻訳方法を実行させる命令を含むコンピュータプログラム製品をさらに提供する。

当業者が明確に理解できるように、容易かつ簡潔に説明するために、上述したシステム、装置及びユニットの具体的な動作プロセスは前述の方法の実施形態における対応プロセスを参照すればよく、ここでは説明を省略する。

以上の技術案から分かるように、本願の実施形態は、以下の利点を有する。

本願の実施形態に係るニューラルネットワークモデルのトレーニング方法において、まず、トレーニングサンプル及びその対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得し、次に、複数の注意ネットワークを含むニューラルネットワークモデルに該トレーニングサンプルセット中のトレーニングサンプルを入力し、そして、該ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、さらに、ニューラルネットワークモデルが特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、該予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、ニューラルネットワークモデルのモデルパラメータを調整して、ターゲットニューラルネットワークモデルを取得する。上記トレーニング方法において、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることができることにより、より情報量のある特徴融合特徴ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保し、該トレーニング方法に基づいて、トレーニングされたニューラルネットワークモデルがより強い学習能力を持つようにする。

本願に係る一部の実施形態では、開示されたシステム、装置及び方法は他の方式で実現できることを理解されたい。例えば、以上で説明された装置の実施形態は、例示的なものに過ぎず、例えば、上記ユニットの分割は、論理的な機能の分割に過ぎず、実際の実施において他の分割仕様を有してもよく、例えば、複数のユニット又は構成要素は組み合わせるか又は他のシステムに集積されてもよく、或いは一部の特徴を無視するか、又は実行しなくてもよい。また、図示又は検討された互いの結合、直接的な結合又は通信接続は、いくつかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。

上記分離した部材として説明されたユニットは、物理的に分離してもよく、物理的に分離しなくてもよく、ユニットとして表示された部材は、物理的なユニットであってもよく、物理的なユニットではなくてもよく、つまり、１つの場所に位置してもよく、複数のネットワークユニット上に分布してもよい。実際のニーズに応じて、それらのうちの一部又は全部のユニットを選択して本実施形態の技術手段の目的を達成することができる。

また、本願の各実施形態中の各機能ユニットは、全てが１つの処理ユニットに集積されてもよく、それぞれが物理的に独立してもよく、２つ以上のユニットが１つのユニットに集積されてもよい。上記集積されたユニットは、ハードウェアの形態で実現されてもよく、ソフトウェア機能ユニットの形態で実現されてもよい。

上記集積されたユニットは、ソフトウェア機能ユニットの形態で実現されて独立な製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本願の技術手段は、本質的に従来技術に対する貢献のある部分又は該技術手段の全部又は一部をソフトウェア製品の形態で実現することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、１つのコンピュータ装置（パーソナルコンピュータ、サーバ又はネットワーク装置などであってよい）に本願の各実施形態に記載の方法の全部又は一部のステップを実行させるいくつかの命令を含む。前述の記憶媒体は、Ｕディスク、リムーバブルハードディスク、リードオンリーメモリ（英語全称：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、英略語：ＲＯＭ）、ランダムアクセスメモリ（英語全称：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、英略語：ＲＡＭ）、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる様々な媒体を含む。

以上の記載のように、以上の実施形態は、本願の技術手段を説明するためのものに過ぎず、それを限定するものではなく、前述した実施形態を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、依然として前述した各実施形態に記載の技術手段を変更するか、又はその一部の技術的特徴に等価置換を行うことができ、これらの修正又は置換により、対応する技術手段の本質は、本願の各実施形態の技術手段の主旨及び範囲から逸脱することにならない。

Claims

コンピュータ装置が実行するニューラルネットワークモデルのトレーニング方法であって、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含み、
前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得する前記ステップは、
前記複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックするステップと、
畳み込みニューラルネットワークを介して前記特徴マップから特徴を抽出して、３次元テンソルを取得するステップと、
前記３次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するステップと、
前記一次元ベクトルを線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を含むことを特徴とするニューラルネットワークモデルのトレーニング方法。
畳み込みニューラルネットワークを介して前記特徴マップから特徴を抽出して、３次元テンソルを取得する前記ステップは、
畳み込みニューラルネットワークを用いて前記特徴マップに対して畳み込み操作を行い、前記３次元テンソルを取得するステップ、又は、
畳み込みニューラルネットワークを用いて前記特徴マップに対して畳み込みとプーリング操作を行い、前記３次元テンソルを取得するステップを含む、ことを特徴とする請求項１に記載の方法。
コンピュータ装置が実行するニューラルネットワークモデルのトレーニング方法であって、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含み、
前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得する前記ステップは、
前記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するステップと、
前記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するステップと、
前記第２のベクトルと前記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するステップと、
前記第４のベクトルに対して線形マッピングを行って、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を含むことを特徴とする方法。
コンピュータ装置が実行するニューラルネットワークモデルのトレーニング方法であって、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含み、
前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得する前記ステップは、
前記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第１のベクトルを取得するステップと、
前記第１のベクトルに対してマッピングを２回行って、それぞれ第２のベクトル及び第３のベクトルを取得するステップと、
前記第２のベクトルと前記第３のベクトルとを要素に応じて対応させて乗算して、第４のベクトルを取得するステップと、
前記第４のベクトルと前記第１のベクトルとを融合して、第５のベクトルを取得するステップと、
前記第５のベクトルに対して線形マッピングを行って、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を含むことを特徴とする方法。
前記第４のベクトルと前記第１のベクトルとを融合して、第５のベクトルを取得する前記ステップは、
前記第４のベクトルと前記第１のベクトルとを順に連結して、第５のベクトルを取得するステップ、又は、
前記第４のベクトルと前記第１のベクトルとを要素の位置に応じて対応させて乗算して、第５のベクトルを取得するステップ、又は、
前記第４のベクトルと前記第１のベクトルとを要素の位置に応じて対応させて加算して、第５のベクトルを取得するステップを含む、ことを特徴とする請求項４に記載の方法。
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する前記ステップは、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定するステップと、
前記損失関数値がターゲット閾値より大きければ、前記ニューラルネットワークモデルのモデルパラメータを反復調整するステップと、
前記損失関数値が前記ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとするステップと、を含むことを特徴とする請求項１～５のいずれか１項に記載の方法。
前記ニューラルネットワークモデルは、機械翻訳モデルであり、エンコーダ及びデコーダを含み、
前記エンコーダは、カスケード接続されたＮ個の第１タイプのネットワークブロックを含み、各第１タイプのネットワークブロックは、カスケード接続された１つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層を含み、
前記デコーダは、カスケード接続されたＮ個の第２タイプのネットワークブロックを含み、各第２タイプのネットワークブロックは、カスケード接続された２つのマルチヘッド注意ネットワーク層及び１つの順伝播型ニューラルネットワーク層を含み、
前記Ｎは１以上の正の整数である、ことを特徴とする請求項１～６のいずれか１項に記載の方法。
前記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも１つであり、
前記トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである、ことを特徴とする請求項１～７のいずれか１項に記載の方法。
コンピュータ装置が実行する機械翻訳方法であって、
翻訳対象のコンテンツを取得するステップと、
機械翻訳モデルにより、前記翻訳対象のコンテンツに対応する翻訳結果を取得するステップであって、前記機械翻訳モデルが、上記請求項１～８のいずれか１項に記載のニューラルネットワークモデルのトレーニング方法でトレーニングされたものである、ステップと、
前記翻訳結果を表示するステップと、を含むことを特徴とする機械翻訳方法。
プロセッサ及びメモリを含むコンピュータ装置であって、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコードに基づいて、請求項１～８のいずれか１項に記載のニューラルネットワークモデルのトレーニング方法を実行する、ことを特徴とするコンピュータ装置。
プロセッサ及びメモリを含むコンピュータ装置であって、
前記メモリは、上記請求項１～８のいずれか１項に記載のニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、
前記プロセッサは、機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する、ことを特徴とするコンピュータ装置。
コンピュータに、上記請求項１～８のいずれか１項に記載のニューラルネットワークモデルのトレーニング方法を実行させるか、又は、上記請求項９に記載の機械翻訳方法を実行させるためのプログラム。