JP7185014B2 - モデルトレーニング方法、機械翻訳方法、コンピュータ装置及びプログラム - Google Patents

モデルトレーニング方法、機械翻訳方法、コンピュータ装置及びプログラム Download PDF

Info

Publication number
JP7185014B2
JP7185014B2 JP2021505689A JP2021505689A JP7185014B2 JP 7185014 B2 JP7185014 B2 JP 7185014B2 JP 2021505689 A JP2021505689 A JP 2021505689A JP 2021505689 A JP2021505689 A JP 2021505689A JP 7185014 B2 JP7185014 B2 JP 7185014B2
Authority
JP
Japan
Prior art keywords
vector
neural network
network model
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021505689A
Other languages
English (en)
Other versions
JP2021533466A (ja
Inventor
トゥ,ジャオポン
リ,ジエン
ワン,シン
ワン,ロォンギュエ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2021533466A publication Critical patent/JP2021533466A/ja
Application granted granted Critical
Publication of JP7185014B2 publication Critical patent/JP7185014B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

本願は、2018年11月28日に提出された、出願番号が201811436794.0で、発明の名称が「モデルトレーニング方法、機械翻訳方法、並びに、関連装置及び機器」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。
本願は、コンピュータ技術の分野に関し、特にニューラルネットワークモデルのトレーニング方法、機械翻訳方法、コンピュータ装置及びコンピュータ可読記憶媒体に関する。
近年、注意機構(Attention Mechanism)は、深層学習に基づく自然言語処理(Neural Language Processing、NLP)の分野における、例えば機械翻訳、スマート質問回答、音声認識などの様々なタスクに広く用いられている。
現在、広く応用されているのは、マルチヘッド注意(Multi-headed Attention)機構であり、いわゆるマルチヘッド注意機構とは、複数の注意ネットワークを介して異なる特徴を学習することであり、すなわち、複数回計算することにより異なるサブ空間上の関連情報を取り込むことである。
しかしながら、従来のマルチヘッド注意機構に基づくモデルは、トレーニング中、それぞれのサブ空間を独立して取り扱うため、従来のマルチヘッド注意機構に基づくモデルの表現学習能力が低い。
本願の実施形態は、トレーニングされたニューラルネットワークモデルが、その中の複数の注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させ、より多くの情報を含む特徴を学習し、それによりモデルの表現学習能力を高めることができることを確保するニューラルネットワークモデルのトレーニング方法を提供する。
第1の態様では、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法は、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含む。
第2の態様では、本願の実施形態に係る機械翻訳方法は、
翻訳対象のコンテンツを取得するステップと、
機械翻訳モデルにより、前記翻訳対象のコンテンツに対応する翻訳結果を取得するステップであって、前記機械翻訳モデルが、上記第1態様に記載のモデルトレーニング方法でトレーニングされたものである、ステップと、
前記翻訳結果を表示するステップと、を含む。
第3の態様では、本願の実施形態に係るコンピュータ装置は、プロセッサ及びメモリを含み、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコードにおける命令に基づいて、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を実行する。
第4の態様では、本願の実施形態に係るコンピュータ装置は、プロセッサ及びメモリを含み、
前記メモリは、上記第1態様に記載のニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、
前記プロセッサは、前記機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する。
第5の態様では、本願の実施形態に係るコンピュータ可読記憶媒体は、コンピュータ上で実行されると、コンピュータに、上記第1態様に記載のニューラルネットワークモデルのトレーニング方法を実行させるか、又は、上記第2の態様に記載の機械翻訳方法を実行させる命令を含む。
本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の適用シーンの概略図である。 本願の実施形態に係るニューラルネットワークモデルのトレーニング方法のフローチャートである。 本願の実施形態に係る非線形変換方式のフローチャートである。 本願の実施形態に係る非線形変換方式の原理概略図である。 本願の実施形態に係る別の非線形変換方式のフローチャートである。 本願の実施形態に係る別の非線形変換方式の原理概略図である。 本願の実施形態に係る更なる非線形変換方式のフローチャートである。 本願の実施形態に係る更なる非線形変換方式の原理概略図である。 本願の実施形態に係る機械翻訳モデルの概略構成図である。 本願の実施形態に係る機械翻訳方法のフローチャートである。 本願の実施形態に係るニューラルネットワークモデルのトレーニング装置の概略構成図である。 本願の実施形態に係る特徴融合ベクトル生成モデルの概略構成図である。 本願の実施形態に係る別の特徴融合ベクトル生成モデルの概略構成図である。 本願の実施形態に係る更なる特徴融合ベクトル生成モデルの概略構成図である。 本願の実施形態に係る機械翻訳装置の概略構成図である。 本願の実施形態に係るサーバの概略構成図である。 本願の実施形態に係る端末装置の概略構成図である。
当業者が本願の技術手段を一層簡単に理解するように、以下、本願の実施形態における図面を参照しながら、本願の実施形態の技術手段を明確かつ完全に説明するが、明らかに、説明される実施形態は、本願の一部の実施形態に過ぎず、全ての実施形態ではない。当業者が本願の実施形態を基に、創造的な労働をすることなく得られる他の全ての実施形態は、いずれも本願の保護範囲に含まれる。
本願の明細書、特許請求の範囲及び上記図面における「第1」、「第2」、「第3」、「第4」など(存在すれば)の用語は、類似の対象を区別するためのもので、特定の順序又は前後順を限定するものではない。ここで説明する本願の実施形態が図面に示すか又は説明した順とは異なる順でも実現できるように、このように使用されるデータは適切な状況で交換可能であることを理解されたい。また、用語「含む」、「有する」及びそれらの任意の変形は、非排他的に含むことをカバーするものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、それらのステップ又はユニットを明確に例示したものに限定されず、明確に例示していない又はこれらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを含んでもよいことを表す。
従来技術では、マルチヘッド注意機構に基づくモデルのトレーニングプロセスにおいて、一般的に線形連結の方式を用いて、モデル中の複数の注意ネットワークのそれぞれの出力ベクトルを直接連結して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。しかしながら、このような線形連結の方式は、各サブ空間の間の複雑な関係を効果的にモデリングすることができず、各特徴の間の相補的な関係を抽出することができないため、非効率的な特徴融合機構である。
上記従来技術に存在する課題を解決するために、本願の実施形態は、トレーニングされたニューラルネットワークモデルが、その中の複数の注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることにより、交換可能な最終的な出力表現を生成できることを確保するニューラルネットワークモデルのトレーニング方法を提供する。
以下、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の核心技術的思想を説明する。
該ニューラルネットワークモデルのトレーニング方法において、まず、トレーニングサンプル及びそれ(すなわち、該トレーニングサンプル)に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得し、次に、複数の注意ネットワークを含むニューラルネットワークモデルに該トレーニングサンプルセット中のトレーニングサンプルを入力し、すなわち、トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、そして、該ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、さらに、ニューラルネットワークモデルが特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、該トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する。
上記ニューラルネットワークモデルのトレーニング方法において、ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを線形連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合特徴ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。
なお、注意機構に基づくニューラルネットワークモデルは、現在、例えば機械翻訳、画像注釈、スマート質問回答、音声認識などの様々な適用シーンに広く用いられており、ある適用シーンに対して、特定の機能を実現可能なニューラルネットワークモデルを開発する必要がある場合、該適用シーンにおける関連データをトレーニングサンプルセットとして取得し、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を用いて、上記トレーニングサンプルセットを利用して、該適用シーンに適するニューラルネットワークモデルを適宜トレーニングすることができる。
本願の実施形態に係るニューラルネットワークモデルのトレーニング方法は、例えば、コンピュータ装置、端末装置、サーバなどの、モデルトレーニング機能を備えた機器に適用できることを理解されたい。端末装置は、具体的には、スマートフォン、コンピュータ、パーソナルデジタルアシスタント(Personal Digital Assitant、PDA)、タブレットなどであってよく、サーバは、具体的には、アプリケーションサーバであってもよいし、Webサーバであってもよく、実際の応用配置の場合、該サーバは、独立サーバであってもよいし、クラスタサーバであってもよい。
実際の応用では、端末装置とサーバとは、ニューラルネットワークモデルを個別にトレーニングしてもよいし、相互にやりとりしてニューラルネットワークモデルをトレーニングしてもよく、両者がやりとりしてニューラルネットワークモデルをトレーニングする場合、端末装置は、サーバからトレーニングサンプルセットを取得し、さらに該トレーニングサンプルセットを利用してニューラルネットワークモデルをトレーニングしてよく、あるいは、サーバは、端末からトレーニングサンプルセットを取得し、該トレーニングサンプルセットを利用してニューラルネットワークモデルをトレーニングしてよい。
端末装置又はサーバは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を実行し、ターゲットニューラルネットワークモデルをトレーニングして取得した後、該ターゲットニューラルネットワークモデルを他の端末装置に送信して、これらの端末装置上で上記ターゲットニューラルネットワークモデルを実行して、対応する機能を実現してもよいし、該ターゲットニューラルネットワークモデルを他のサーバに送信して、他のサーバ上で上記ターゲットニューラルネットワークモデルを実行し、これらのサーバによって、対応する機能を実現してもよいことを理解されたい。
本願の実施形態に係る技術案を容易に理解するために、以下、サーバがニューラルネットワークモデルをトレーニングすることを例にして、実際の適用シーンと組み合わせて本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を説明する。
図1を参照すると、図1は、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の適用シーンの概略図である。該シーンには、端末装置101と、ニューラルネットワークモデルをトレーニングするためのサーバ102とが含まれており、端末装置101とサーバ102とは、有線又は無線ネットワークであってよいネットワークを介して接続される。端末装置101は、トレーニングサンプル及びトレーニングサンプルに対応する標準ラベルをサーバに提供することができる。
サーバ102は、ネットワークを介して端末装置101からトレーニングサンプル及びトレーニングサンプルに対応する標準ラベルを取得した後、各標準ラベルを適宜、標準ラベルベクトルに変換し、サーバ102は、取得した全てのトレーニングサンプル及びそれ(すなわち、各トレーニングサンプル)に対応する標準ラベルベクトルをトレーニングサンプルセットとし、次に、複数の注意ネットワークを含むニューラルネットワークモデルに該トレーニングサンプルセットを入力し、すなわち、トレーニングサンプルセットをニューラルネットワークモデルの複数の注意ネットワークに入力し、サーバ102は、該ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、さらに、ニューラルネットワークモデルが該特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、最終的に、サーバ102は、トレーニングサンプルに対応する標準ラベルベクトルと予測ラベルベクトルとの比較結果に基づいて、ニューラルネットワークモデルが収束条件を満たすまで、ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する。
サーバ102は、ターゲットニューラルネットワークモデルを生成した後、さらに、該ターゲットニューラルネットワークモデルを端末装置101に送信して、該ターゲットニューラルネットワークモデルを端末装置上で実行し、これらのターゲットニューラルネットワークモデルを利用して、対応する機能を実現するようにしてよい。
なお、サーバ102は、ニューラルネットワークモデルをトレーニングするプロセスにおいて、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合し、このような非線形変換により出力ベクトルを融合する方式は、各注意ネットワークの出力ベクトルの間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合特徴ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。
なお、上記図1に示す適用シーンは一例に過ぎず、実際の応用において、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法は、他の適用シーンにも適用可能であり、ここでは、該ニューラルネットワークモデルのトレーニング方法の適用シーンを何ら限定しない。
以下、実施形態により本願に係るニューラルネットワークモデルのトレーニング方法を説明する。
図2を参照すると、図2は、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法のフローチャートである。説明の便宜上、下記実施形態では、サーバを実行主体として説明するが、該ニューラルネットワークモデルのトレーニング方法の実行主体は、サーバに限定されず、端末装置などの、モデルトレーニング機能を備えた装置にも適用可能であることを理解されたい。図2に示すように、該ニューラルネットワークモデルのトレーニング方法は、以下のステップ201~205を含む。
ステップ201では、サーバは、トレーニングサンプルセットを取得し、該トレーニングサンプルセットは、トレーニングサンプル及びそれ(すなわち、トレーニングサンプル)に対応する標準ラベルベクトルを含む。
サーバは、トレーニングサンプルセットを取得して、該トレーニングサンプルセット中のトレーニングサンプルを利用してニューラルネットワークモデルをトレーニングし、該トレーニングサンプルセットには、一般的に、複数のトレーニングサンプルと、これらのトレーニングサンプルのそれぞれに対応する標準ラベルベクトルとが含まれ、該標準ラベルベクトルは、トレーニングサンプルに対応する標準ラベルに基づいて生成されるものである。
一部の実施形態では、サーバは、関連データベースから若干の履歴データを取得し、取得した若干の履歴データをトレーニングサンプルセットとしてよい。本願の実施形態に係るニューラルネットワークモデルのトレーニング方法の実行主体が端末装置である場合、端末装置は、サーバへの履歴データの取得クエリを開始し、サーバから若干の履歴データをトレーニングサンプルセットとして取得してよいことを理解されたい。
任意選択で、上記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも1つを含むが、これらに限定されず、該トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである。
トレーニングサンプルが翻訳対象のテキストである場合、該トレーニングサンプルに対応する標準ラベルは、該翻訳対象のテキストに対応する標準翻訳テキストである。トレーニングサンプルである翻訳対象のテキストが中国語であり、該翻訳対象のテキストを対応する英語に翻訳する必要があれば、該トレーニングサンプルに対応する標準ラベルは、英語の標準翻訳テキストであり、例えば、トレーニングサンプルである翻訳対象のテキストが中国語の
外1
Figure 0007185014000001
であれば、該トレーニングサンプルに対応する標準ラベルは「I love you」であり、トレーニングサンプルである翻訳対象のテキストが英語であり、該翻訳対象のテキストを対応する中国語に翻訳する必要があれば、該トレーニングサンプルに対応する標準ラベルは、中国語の標準翻訳テキストであり、例えば、トレーニングサンプルである翻訳対象のテキストが英語の「I love you」であれば、該トレーニングサンプルに対応する標準ラベルは
外2
Figure 0007185014000002
である。
トレーニングサンプルは、翻訳対象のビデオである場合、一般的に、画像注釈の適用シーンに適用され、該トレーニングサンプルに対応する標準ラベルは標準翻訳テキストであり、該標準翻訳テキストは、翻訳対象のビデオに表示されるシーンに対応するテキスト情報であり、例えば、トレーニングサンプルである翻訳対象のビデオに表示されるシーンは、先生が教室内で学生に授業をしていることであれば、該トレーニングサンプルに対応する標準ラベルは、「先生が教室内で授業をしている」ことである。ここでの翻訳対象のビデオは、静的ビデオフレームであってもよいし、動的ビデオフレームであってもよい。
トレーニングサンプルが翻訳対象のオーディオである場合、該トレーニングサンプルに対応する標準ラベルは、依然として、標準翻訳テキストであり、該標準翻訳テキストは、翻訳対象のオーディオに対応するテキスト情報であり、例えば、トレーニングサンプルである翻訳対象のオーディオは、「おかけさまで元気です」であり、それに応じて、該トレーニングサンプルに対応する標準ラベルは、「おかけさまで元気です」又は「I am fine,thank you」であってよく、該標準ラベルは、ニューラルネットワークモデルの実現すべき具体的な機能に応じて決定されてよい。
なお、上記トレーニングサンプル及びその対応するラベルは、いくつかの例に過ぎず、実際の応用において、他のデータをトレーニングサンプルとして収集し、該トレーニングサンプルに対応する標準ラベルを取得し、さらに、該標準ラベルに基づいて該トレーニングサンプルに対応する標準ラベルベクトルを決定してもよい。
なお、上記トレーニングサンプルは、通常、規則的に配列された一組の要素からなり、すなわち、該トレーニングサンプルは、要素シーケンスとして表現されてよく、I個の要素からなるトレーニングサンプルを例として、トレーニングサンプルは、X={x,x,x,…,x}と表すことができ、該トレーニングサンプルの長さがIであり、例えば、トレーニングサンプルである翻訳対象のテキストが「今日は月曜日である」であれば、それに応じて、該トレーニングサンプルは、{今,日,は,月,曜,日,で,あ,る}と表現することができる。また、例えば、トレーニングサンプルである翻訳対象のテキストが「Today is Monday」であれば、それに応じて、該トレーニングサンプルは、{Today,is,Monday}と表現することができる。
ステップ202では、サーバは、トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルに入力し、該ニューラルネットワークモデルは複数の注意ネットワークを含む。
サーバは、トレーニングサンプルセットを取得した後に、トレーニングサンプルセット中のサンプルをニューラルネットワークモデルに一々入力し、つまり、トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに一々入力し、トレーニングサンプルセット中のトレーニングサンプルを利用してニューラルネットワークモデルをトレーニングし、該ニューラルネットワークモデルは、予め構築されたネットワークモデルであり、異なる特徴情報を取り込むネットワークである複数の注意ネットワークを含む。
なお、上記ニューラルネットワークモデルは、回帰型ニューラルネットワークモデル(Recurrent Neural Network、RNN)、ニューラルネットワーク機械翻訳モデル(Neural Machine Translation、NMT)、エンコーダ-デコーダ(Encoder-Decoder)などのニューラルネットワークモデルであってよく、ここではニューラルネットワークモデルの構成を具体的に限定しない。
なお、各注意ネットワークは、それぞれ異なるサブ空間に対応し、すなわちサブ空間と注意ネットワークとが一対一に対応する関係があり、各サブ空間は、入力された要素シーケンスに対して注意関数演算を適宜行うことにより、対応するクエリ(query)ベクトル列、キー(key)ベクトル列及び値(value)ベクトル列を出力し、上記注意関数は、具体的には、線形変換であってよく、線形変換が、1つのベクトル空間に属するベクトルを他のベクトル空間にマッピングすることができ、ベクトル空間が同じ次元の複数のベクトルからなる集合である。
具体的に実装する場合、サーバがトレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルに入力した後、ニューラルネットワークモデルは、そのうちの第1層のネットワーク構成を利用して、トレーニングサンプルに対応する要素シーケンスを、対応するソースベクトル列に変換し、すなわち離散した要素を連続した空間表現に変換することができ、該ソースベクトル列が、トレーニングサンプルに対応する要素シーケンス中の各要素に対応するソースベクトルからなり、該ソースベクトル列が、Z={z,z,z,…,z}と表現することができる。例えば、ニューラルネットワークモデルの第1層のネットワーク構成は、トレーニングサンプルに対応する要素シーケンス中の第i個の要素xを1つのd次元の列ベクトルzに変換し、さらに、要素シーケンス中の各要素のそれぞれに対応する列ベクトルを組み合わせて、I個のd次元の列ベクトルからなるベクトル列である、該トレーニングサンプルに対応するソースベクトルを取得する。
可能な一実現態様では、ニューラルネットワークモデルがトレーニングサンプルを対応するソースベクトル列に変換した後に、ニューラルネットワークモデル中の各注意ネットワークは、それぞれソースベクトル列を異なる各サブ空間にマッピングし、各サブ空間によりソースベクトル列に対して注意関数演算を行って、その対応するクエリベクトル列、キーベクトル列及び値ベクトル列を取得することができる。各注意ネットワークがi個のサブ空間を含み、各サブ空間が3つの異なる学習可能パラメータ行列W 、W 及びW を含み、これらの3つの学習可能パラメータ行列を利用してソースベクトル列を線形変換し、クエリベクトル列Q、キーベクトル列K及び値ベクトル列Vを取得すると仮定すると、具体的な線形変換のプロセスは、以下のとおりである。
=z*W
=z*W
=z*W
ここで、第i個のサブ空間から出力されるクエリベクトル列Q、キーベクトル列K及び値ベクトル列Vは、それぞれ、Q、K及びVであり、トレーニングサンプルX={x,x,x,…,x}は、I個の要素を含み、ソースベクトル列Z={z,z,z,…,z]における各要素は、d次元の列ベクトルであり、すなわち、ZはI個のd次元のベクトルからなるベクトル列であり、I*dの行列と表記することができ、学習可能パラメータ行列W 、W 及びW がd*dの行列であれば、クエリベクトル列Q、キーベクトル列K及び値ベクトル列Vは、I*dの行列である。ここで、I又はdは、1以上の、いずれか1つの正の整数である。
別の可能な実施形態では、ニューラルネットワークモデルは、トレーニングサンプルを対応するソースベクトル列に変換した後に、まず、3つの異なる学習可能パラメータ行列W、W及びWを利用して、ソースベクトル列Zを線形変換して、クエリベクトルベースシーケンスq、キーベクトルベースシーケンスk及び値ベクトルベースシーケンスvを取得し、具体的には、線形変換のプロセスは、以下のとおりである。
q=Z*W
k=Z*W
v=Z*W
ここで、トレーニングサンプルX={x,x,x,…,x}は、I個の要素を含み、ソースベクトル列Z={z,z,z,…,z}における各要素はd次元の列ベクトルであり、すなわち、ZはI個のd次元の列ベクトルからなるベクトル列であり、I*dの行列と表記することができ、学習可能パラメータ行列W 、W 及びW がd*dの行列であれば、クエリベクトルベースシーケンスq、キーベクトルベースシーケンスk及び値ベクトルベースシーケンスvは、I*dの行列である。ここで、I又はdは、1以上の、いずれか1つの正の整数である。
そして、ニューラルネットワークにおける各注意ネットワークを介して、クエリベクトルベースシーケンスq、キーベクトルベースシーケンスk及び値ベクトルベースシーケンスvを各サブ空間にそれぞれマッピングし、各サブ空間により、クエリベクトルベースシーケンスq、キーベクトルベースシーケンスk及び値ベクトルベースシーケンスvに対して注意関数演算を行うことにより、対応するクエリベクトル列Q、キーベクトル列K及び値ベクトル列Vを取得し、具体的な計算プロセスは、以下のとおりである。
=q*W
=k*W
=v*W
第i個のサブ空間から出力されるクエリベクトル列Q、キーベクトル列K及び値ベクトル列Vは、それぞれ、Q、K及びVであり、ここで、各サブ空間の学習可能パラメータ行列W 、W 及びW は同じではない。
各サブ空間のそれぞれに対応するクエリベクトル列、キーベクトル列及び値ベクトル列を取得した後に、各サブ空間において、それぞれドット積を用いてクエリと各キー値ペアとの間の論理類似度をモデリングすることができ、具体的には論理類似度eを計算する公式は、以下のとおりである。
Figure 0007185014000003
ここで、eが第i個のサブ空間に対応する論理類似度であり、K が第i個のサブ空間のキーベクトル列Kの転置であり、Qが第i個のサブ空間のクエリベクトル列であり、dがニューラルネットワークモデルの隠れ状態ベクトルの次元であり、該dが固定のパラメータであり、i又はdが1以上の、いずれか1つの正の整数である。
そして、ドット積を用いて計算して得られた論理類似度を利用してsoftmax非線形変換を行い、論理類似度を、クエリと各キー値ペアとの間の重み関係に変換し、具体的には論理類似度を重み関係に変換する公式は、以下のとおりである。
α=softmax(e
ここで、αが第i個のサブ空間に対応する重み関係であり、eが第i個のサブ空間に対応する論理類似度であり、softmax関数が指数正規化関数である。
さらに、上記計算して得られた重み関係を利用して、各サブ空間に対応する値ベクトル列に対して重み付け処理を適宜行って、各サブ空間のそれぞれに対応する出力ベクトルを取得し、該出力ベクトルが注意ネットワークの出力ベクトルであり、具体的な重み付け処理の公式は、以下のとおりである。
=α・V
ここで、Oが第i個のサブ空間に対応する出力ベクトルであり、すなわち、第i個の注意ネットワークに対応する出力ベクトルであり、αが第i個のサブ空間に対応する重み関係であり、Vが第i個のサブ空間に対応する値ベクトル列であり、iが1以上の、いずれか1つの正の整数である。
ステップ203では、サーバは、上記ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。
ニューラルネットワークモデルは、各注意ネットワークのそれぞれに対応する出力ベクトルを取得した後、各注意ネットワークのそれぞれの出力ベクトルをさらに非線形変換し、非線形変換により各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを取得する。
本願は、構造が簡単でモデリングしやすく、また、余分の計算リソースを可能な限り減少させるなどの観点から、複数の注意ネットワークのそれぞれの出力ベクトルを融合するために、主に、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うことと、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことと、双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うこととの3種類の非線形変換方式を提供する。以下、後続の実施形態では、この3種類の非線形変換方式を具体的に説明する。
実際の応用においては、他の非線形変換の方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得してもよく、ここでは、利用可能な非線形変換方式を具体的に限定しないことを理解されたい。
ステップ204では、サーバは、ニューラルネットワークモデルが特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得する。
サーバは、ニューラルネットワークモデルにより、複数の注意ネットワークに対応する特徴融合ベクトルを取得した後に、さらに該ニューラルネットワークモデルを利用して、特徴融合ベクトルに対して対応する処理を行って、該特徴融合ベクトルに基づいてトレーニングサンプルに対応する予測ラベルベクトルを生成し、該予測ラベルベクトルをさらに変換すれば予測ラベルを取得することができる。
予測ラベルが上記標準ラベルと同じタイプのデータであり、例えば、標準ラベルがトレーニングサンプルに対応する標準翻訳中国語テキストであれば、予測ラベルは、該ニューラルネットワークモデルがトレーニングサンプルに対して一連の処理を行って得られた中国語テキストであることを理解されたい。それに応じて、予測ラベルベクトルと標準ラベルベクトルとのデータタイプも同じタイプであるため、両者を比較することができる。
ステップ205では、サーバは、トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する。
サーバは、ニューラルネットワークモデルから出力された予測ラベルベクトルを取得した後に、さらに、該トレーニングサンプルに対応する予測ラベルベクトルと、該トレーニングサンプルに対応する標準ラベルベクトルとを比較して、予測ラベルベクトルと標準ラベルベクトルとの比較結果を決定し、さらに、該比較結果に基づいて、ニューラルネットワークモデルのモデルパラメータを反復調整し、モデルパラメータを反復調整することによりニューラルネットワークモデルを段階的に収束させ、すなわち、ニューラルネットワークモデルの性能を段階的に最適化し、ニューラルネットワークモデルが収束条件を満たす場合、すなわち、ニューラルネットワークモデルの性能が所定の基準に達した場合、現在のニューラルネットワークモデルのモデル構成及びモデルパラメータに基づいて、ターゲットニューラルネットワークモデルを決定することができる。
具体的には、ニューラルネットワークモデルのモデルパラメータを調整する場合、サーバは、トレーニングサンプルに対応する予測ラベルベクトルと、該トレーニングサンプルに対応する標準ラベルベクトルとの比較結果に基づいて、損失関数を決定することができ、該損失関数を最小化することを目指して、該ニューラルネットワークモデルのモデルパラメータを反復調整し、損失関数が最小になる場合、現在のニューラルネットワークモデルが収束条件を満たしていると判断し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとすることができる。
上記パラメータの調整プロセスにおいて、換言すれば、サーバは、トレーニングサンプルに対応する予測ラベルベクトルと、該トレーニングサンプルに対応する標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定することができ、該損失関数値がターゲット閾値より大きければ、該ニューラルネットワークモデルのモデルパラメータを反復調整し、該損失関数値が該ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たしていると判断し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとすることができる。ここで、該ターゲット閾値は、いずれか1つの0以上1以下の数値である。
上記ニューラルネットワークモデルが収束条件を満たすか否かを具体的に判断する場合、トレーニングサンプルセット中のトレーニングサンプルを利用してニューラルネットワークモデルに対して第1回のトレーニング及び最適化を行って得られたモデルである第1のモデルを、テストサンプルを利用して検証してよく、具体的には、サーバは、テストサンプルを該第1のモデルに入力し、該第1のモデルを利用してテストサンプルを適宜処理し、処理プロセスにおいて、第1のモデルは、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、該特徴融合ベクトルに基づいて、該テストサンプルに対応する予測ラベルベクトルを生成し、さらに、該予測ラベルベクトルと、該テストサンプルに対応する標準ラベルベクトルとに基づいて予測精度を計算し、該予測精度が第1の所定の閾値より大きい場合、該第1のモデルが収束条件を満たすと考えられ、この場合、モデル性能が良く、実際のニーズを満たすことができ、それに応じて、該第1のモデルのモデルパラメータとモデル構成とに基づいて、ターゲットニューラルネットワークモデルを生成することができる。
また、ニューラルネットワークモデルが収束条件を満たすか否かを判断する場合、複数回トレーニングされた複数のモデルに基づいて、ニューラルネットワークモデルのトレーニングを継続するか否かを決定して、モデル性能が最適なニューラルネットワークモデルを取得してもよい。具体的には、テストサンプルを利用して、複数回トレーニングされた複数のニューラルネットワークモデルをそれぞれ検証し、毎回トレーニングして得られたニューラルネットワークモデルの予測精度の差が第2の所定の閾値より小さいか否かを判断し、小さければ、ニューラルネットワークモデルの性能が向上する余地がないと考えられ、予測精度が最も高いニューラルネットワークモデルをターゲットニューラルネットワークモデルとして選択し、逆には、大きければ、ニューラルネットワークモデルの性能が向上する余地があると考えられ、モデル性能が最も安定し最適なニューラルネットワークモデルが得られるまで、該ニューラルネットワークモデルを継続してトレーニングしてもよい。
なお、上記第1の所定の閾値及び第2の所定の閾値は、いずれも実際の状況に応じて設定することができ、ここでは該第1の所定の閾値及び第2の所定の閾値の値を具体的に限定しない。
上記ニューラルネットワークモデルのトレーニング方法において、ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを線形連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。
上記実施形態で説明したように、本願の実施形態に係るニューラルネットワークのトレーニング方法は、複数の注意ネットワークのそれぞれの出力ベクトルを対応する特徴融合ベクトルに融合する場合、非線形変換の方式を用い、本願は、主に、3種類の非線形変換の方式を提供し、第1種は、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うことであり、第2種は、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことであり、第3種は、双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことであり、以下、実施形態によりこの3種類の非線形変換の方式をそれぞれ具体的に説明する。
まず、上記第1種の非線形変換の方式(すなわち、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うこと)を具体的に説明する。図3を参照すると、図3は、このような非線形変換方式に対応するフローチャートである。図3に示すように、該方法は、以下のステップ301~304を含む。
ステップ301では、サーバは、複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックする。
本願の実施形態は、1枚の二次元の特徴マップを例として説明し、上記二次元の特徴マップは、1枚以上であってもよく、本願の実施形態は、特徴マップの数を具体的に限定しない。
ニューラルネットワークモデルは、複数の注意ネットワークのそれぞれの出力ベクトルを取得した後に、各出力ベクトルを並べてスタック(stack)して、1枚の二次元の特徴マップを取得する。理解を容易にするために、以下、図4を参照しながら本実施形態における各ステップの実現プロセスを説明し、図4は、このような非線形変換方式に対応する原理概略図であり、図4に示すように、401、402、403は、それぞれ各注意ネットワークの出力ベクトルであり、ステップ301では、ニューラルネットワークモデルは、並べてスタックする方式を用いて出力ベクトル401、出力ベクトル402及び出力ベクトル403を1枚の二次元の特徴マップ404としてスタックする。
図4に示すものは、一例に過ぎず、実際の応用において、ニューラルネットワークモデルに含まれる注意ネットワークは、3つに限定されず、それに応じて、注意ネットワークに対応する出力ベクトルも3つに限定されず、つまり、実際の応用において、ニューラルネットワークモデルは、上記並べてスタックする方式を用いて若干の出力ベクトルを二次元の特徴マップとしてスタックすることができ、ここでは出力ベクトルの数を限定しない。
ステップ302では、サーバは、畳み込みニューラルネットワークを介して該特徴マップから特徴を抽出して、3次元テンソルを取得する。
さらに、ニューラルネットワークモデルは、畳み込みネットワークを介して、上記各出力ベクトルを並べてスタックして得られた二次元の特徴マップに対して特徴抽出を行って、その対応する3次元テンソルを取得する。図4に示すように、ニューラルネットワークモデルは、出力ベクトルを並べてスタックして構成された二次元の特徴マップ404に対して畳み込み処理を行うことにより、該二次元の特徴マップ404の特徴を抽出して、3次元テンソル405を取得する。
可能な一実現態様では、ニューラルネットワークモデルは、畳み込みニューラルネットワークを用いて特徴マップに対して畳み込み操作を行って、3次元テンソルを取得することができる。畳み込みニューラルネットワークは、順伝播型ニューラルネットワークであり、その中の人工ニューロンは、周辺ユニットに応じて、特徴マップに対して畳み込み処理を行うことにより、特徴マップの特徴を抽出して、3次元テンソルを取得することができる。
別の可能な一実現態様では、異なるサイズの特徴マップについて、最後に出力された3次元テンソルに対応する次元がいずれも同じであることを確保するために、ニューラルネットワークモデルは、畳み込みニューラルネットワークを用いて、特徴マップに対して畳み込みとプーリング操作を行って、3次元テンソルを取得してもよい。つまり、前の実現態様と比較して、畳み込みニューラルネットワークにプーリング層を追加しており、該プーリング層を利用して畳み込み層の出力に対してダウンサンプリング処理を行い、プーリングのプロセスは、実際に畳み込み層に対して領域を分けて最大値を求めるか、又は各畳み込み層に対して最大値を求める処理プロセスである。
なお、畳み込みニューラルネットワークに導入される追加パラメータ及びトレーニングオーバーヘッドを抑制するために、1層のみの畳み込み層を含む畳み込みニューラルネットワークを利用して上記ステップ302を実行してよく、当然のことながら、より高い特徴抽出効果を達成するために、複数層の畳み込み層を含む畳み込みニューラルネットワークを用いて上記ステップ302を実行してもよく、ここでは、用いられる畳み込みニューラルネットワークに含まれる畳み込み層の数を何ら限定しない。
ステップ303では、サーバは、3次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得する。
本願の実施形態は、1つの一次元ベクトルを例として説明し、上記一次元ベクトルの数は、1つ以上であってもよく、本願の実施形態は、一次元ベクトルの数を具体的に限定しない。
畳み込みニューラルネットワークを介して処理して3次元テンソルを取得した後に、ニューラルネットワークモデルは、さらに該3次元テンソルに対してシリアライズ処理を行って、該3次元テンソルを一次元ベクトルに変換する。図4に示すように、ニューラルネットワークモデルは、3次元テンソル405に対してシリアライズ処理を行って、一次元ベクトル406に変換する。
ステップ304では、サーバは、一次元ベクトルを線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。
最終的には、上記ステップ303で得られた一次元ベクトルを線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。
上記畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行う方式は、畳み込みニューラルネットワークが画像特徴を抽出することにおける成功を参考にして、複数の注意ネットワークのそれぞれの出力ベクトルに対する特徴融合に適用して、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現がより良いことを確保することができる。
畳み込みが局所的な操作であり、局所的な特徴元素のみが畳み込み層中の畳み込みカーネルにより直接的に相互作用させられることができるため、複数の注意ネットワークのそれぞれの出力ベクトル中の全ての要素を直接的に相互作用させるために、本願の実施形態は、第2種の非線形変換方式、すなわち、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式をさらに提供し、双線形モデルは、1つの外積操作と1つの線形マッピングとからなり、各注意ネットワークのそれぞれの出力ベクトル中の全ての要素が二次の完全な相互作用が可能であることを確保することができる。
図5を参照すると、図5は、このような非線形変換方式に対応するフローチャートである。図5に示すように、該方法は、以下のステップ501~504を含む。
ステップ501では、サーバは、複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得する。
ニューラルネットワークモデルは、各注意ネットワークのそれぞれの出力ベクトルを取得した後に、各注意ネットワークの出力ベクトルを連結して第1のベクトルを取得し、例えば、ニューラルネットワークモデルに3つの注意ネットワークが含まれ、かつ各注意ネットワークの出力ベクトルがいずれも10*10のベクトルであれば、各注意ネットワークの出力ベクトルを連結して1つの10*30の第1のベクトルを取得する。
各注意ネットワークのそれぞれの出力ベクトルがそれぞれO、O、…Oであると仮定すると、これらの出力ベクトルを連結して第1のベクトル
Figure 0007185014000004
を取得する実現式は、以下のとおりである。
Figure 0007185014000005
ここで、[]はベクトル連結を表す。
理解を容易にするために、以下、図6を参照しながら本実施形態における各ステップの実現プロセスを説明し、図6は、このような非線形変換方式に対応する原理概略図である。図6に示すように、601、602、603は、それぞれ各注意ネットワークの出力ベクトルであり、ステップ501では、ニューラルネットワークモデルは、出力ベクトル601、出力ベクトル602及び出力ベクトル603を連結して、第1のベクトル604を取得する。
図6に示すものは、一例に過ぎず、実際の応用において、ニューラルネットワークモデルに含まれる注意ネットワークは、3つに限定されず、それに応じて、注意ネットワークに対応する出力ベクトルも3つに限定されず、つまり、実際の応用において、ニューラルネットワークモデルは、3つの出力ベクトルを連結する必要があるだけでなく、ここでは出力ベクトルの数を何ら限定しない。
ステップ502では、サーバは、該第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得する。
さらに、ニューラルネットワークモデルは、第1のベクトルに対してそれぞれマッピングを2回行って第2のベクトル及び第3のベクトルを取得し、すなわち、双線形モデルを利用して第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得する。
なお、ニューラルネットワークモデルは、第1のベクトルに対して線形マッピングを2回行うことにより、それぞれ第2のベクトル及び第3のベクトルを取得してよく、すなわち、第1のベクトルに対して線形変換を1回実行して第2のベクトルを取得し、第1のベクトルに対して別の線形変換を1回実行して第3のベクトルを取得し、当然のことながら、第1のベクトルに対してそれぞれ非線形マッピングを2回行うことにより、第2のベクトル及び第3のベクトルを取得してもよく、すなわち、第1のベクトルに対して非線形変換を1回実行して第2のベクトルを取得し、第1のベクトルに対して別の非線形変換を1回実行して第3のベクトルを取得し、ここでは具体的なマッピング方式を何ら限定しない。
第1のベクトルに対して線形マッピングを行う場合、第1のベクトルに対して2回線形マッピングを行う具体的な公式は、以下のとおりである。
Figure 0007185014000006
ここで、
Figure 0007185014000007
が第2のベクトルであり、Uが第1回の線形マッピングに対応するマッピングパラメータであり、
Figure 0007185014000008
が第3のベクトルであり、Vが第2回の線形マッピングに対応するマッピングパラメータであり、
Figure 0007185014000009
が第1のベクトルであり、
Figure 0007185014000010
が第1のベクトル
Figure 0007185014000011
の転置である。
図6に示すように、異なるマッピングパラメータU及びVを利用してそれぞれ第1のベクトル604に対して線形マッピングを行って、第2のベクトル605及び第3のベクトル606を取得する。
ステップ503では、サーバは、第2のベクトルと第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得する。
そして、ニューラルネットワークモデルは、第2のベクトルと第3のベクトルとを要素に応じて対応させて乗算して第4のベクトルを取得し、このような乗算方式により、第2のベクトル及び第3のベクトル中の各要素を十分に相互作用させる。
第4のベクトルを具体的に計算する公式は、以下のとおりである。
Figure 0007185014000012
ここで、O’が第4のベクトルであり、
Figure 0007185014000013
が第2のベクトルであり、
Figure 0007185014000014
が第3のベクトルである。
図6に示すように、ニューラルネットワークモデルは、第2のベクトル605と第3のベクトル606とを要素に応じて対応させて乗算する方式により、第4のベクトル607を取得する。
ステップ504では、サーバは、第4のベクトルに対して線形マッピングを行って、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。
最終的に、第4のベクトルに対して線形マッピングを行うことにより、ニューラルネットワークモデル中の複数の注意ネットワークに対応する特徴融合ベクトルを取得する。
具体的には、第4のベクトルに対して線形マッピングを行う公式は以下のとおりである。
O=O’*P
ここで、Oが特徴融合ベクトルであり、O’が第4のベクトルであり、Pが線形マッピングパラメータである。
図6に示すように、ニューラルネットワークモデルは、第4のベクトル607に対して線形マッピング処理を行って、最終的に特徴融合ベクトル608を取得する。
上記双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式は、低次双線形モデルを適用して元の双線形モデルに近似し、各注意ネットワークのそれぞれの出力ベクトル中の全ての要素同士がいずれも二次相互作用可能であることを確保することにより、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることで、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現がより良いことを確保することができる。
発明者らは、実験研究により、二次相互作用と一次相互作用との間に相補的な促進の関係があることを見出し、それに応じて、二次相互作用と一次相互作用とを同時に考慮に入れることはより効率的な特徴融合機構をもたらす可能性があるため、本願の実施形態は、第3種の非線形変換方式、すなわち、双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式を提供することにより、複数の注意ネットワークの出力ベクトルの全ての要素の二次関係と一次関係とを同時にモデリングする。
図7を参照すると、図7は、このような非線形変換方式に対応するフローチャートである。図7に示すように、該方法は、以下のステップ701~705を含む。
ステップ701では、サーバは、複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得する。
ステップ702では、サーバは、該第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得する。
ステップ703では、サーバは、第2のベクトル及び第3のベクトルを要素に応じて対応させて乗算して、第4のベクトルを取得する。
上記ステップ701~ステップ703の具体的な実現プロセスは、図5に示すステップ501~ステップ503の具体的な実現プロセスと類似し、詳細については、上記ステップ501~ステップ503の関連説明を参照し、ここでは説明を省略する。
図7に示す非線形変換方式を容易に理解するために、以下、図8を参照しながらこのような変換方式における各ステップの実現プロセスを説明し、図8は、このような非線形変換方式に対応する原理概略図である。
図8に示すように、801、802、803は、それぞれ各注意ネットワークの出力ベクトルであり、ニューラルネットワークモデルは、ステップ701により、出力ベクトル801、出力ベクトル802及び出力ベクトル803を連結して、第1のベクトル804を取得し、次に、ステップ702により、異なるマッピングパラメータU及びVを利用して、それぞれ第1のベクトル804に対して線形マッピングを行うことにより、第2のベクトル805及び第3のベクトル806を取得し、そして、ステップ703により、第2のベクトル805及び第3のベクトル806とを要素に応じて対応させて乗算して、第4のベクトル807を取得する。
ステップ704では、サーバは、第4のベクトルと第1のベクトルとを融合して、第5のベクトルを取得する。
ニューラルネットワークモデルは、第2のベクトル及び第3のベクトルを要素に応じて乗算して第4のベクトルを取得した後に、さらに、該第4のベクトルと、ステップ701で出力ベクトルを連結して得られた第1のベクトルとを融合して、第5のベクトルを取得する。
具体的に第4のベクトルと第1のベクトルとを融合する場合に、ニューラルネットワークモデルは、第4のベクトルと第1のベクトルとを順に連結して第5のベクトルを取得し、すなわち、ステップ701での連結方式に従って第4のベクトルと第1のベクトルとを連結してもよく、ニューラルネットワークモデルは、第4のベクトルと第1のベクトルとを要素の位置に応じて対応させて第5のベクトルを取得し、すなわち、ステップ703での乗算方式に従って第4のベクトルと第1のベクトルとを要素の位置に応じて対応させて乗算して第5のベクトルを取得してもよく、ニューラルネットワークモデルは、第4のベクトルと第1のベクトルとを要素の位置に応じて対応させて加算する方式により、第5のベクトルを取得し、すなわち、第4のベクトル及び第1のベクトル中の、位置が対応する要素を加算してもよい。
順に連結する方式を用いて第5のベクトルを取得する場合、具体的な計算式は、以下のとおりである。
Figure 0007185014000015

ここで、[]がベクトル連結を表し、O”が第5のベクトルであり、
Figure 0007185014000016

が第4のベクトルであり、
Figure 0007185014000017
が第1のベクトルである。
図8に示すように、ニューラルネットワークモデルは、第4のベクトル807と第1のベクトル804とを順に連結して、第5のベクトル808を取得する。
ステップ705では、サーバは、第5のベクトルに対して線形マッピングを行って、複数の注意ネットワークに対応する特徴融合ベクトルを取得する。
最終的に、第5のベクトルに対して線形マッピングを行うことにより、ニューラルネットワークモデル中の複数の注意ネットワークに対応する特徴融合ベクトルを取得する。
具体的には、第5のベクトルに対して線形マッピングを行う公式は以下のとおりである。
O=O”*P
ここで、Oが特徴融合ベクトルであり、O”が第5のベクトルであり、Pが線形マッピングパラメータである。
図8に示すように、ニューラルネットワークモデルは、第5のベクトル808に対して線形マッピング処理を行って、最終的に特徴融合ベクトル809を取得する。
上記双線形モデルとベクトル連結を同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行う方式は、二次相互作用と一次相互作用との相補的な促進の関係を考慮に入れると共に、二次相互作用と一次相互作用がより効率的な特徴融合機構をもたらすことができることを考慮に入れるため、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現がより良いことを確保することができる。
なお、上記ニューラルネットワークモデルは、実際の応用において、機械翻訳モデルであってよく、該機械翻訳モデルはエンコーダとデコーダとを含み、エンコーダは、カスケード接続されたN個の第1タイプのネットワークブロックを含み、各第1タイプのネットワークブロックは、カスケード接続された1つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、デコーダは、カスケード接続されたN個の第2タイプのネットワークブロックを含み、各第2タイプのネットワークブロックは、カスケード接続された2つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、ここで、Nは1以上の正の整数である。
機械翻訳モデルは、翻訳対象のコンテンツを対応する翻訳テキストに翻訳するモデルであり、例えば、翻訳対象の中国語テキストを対応する英語テキストに翻訳するモデルであり、該機械翻訳モデルは、具体的には、ニューラル機械翻訳(Neural Machine Translation、NMT)モデルであってよい。
図9を参照すると、図9は、本願の実施形態に係る機械翻訳モデルの概略構成図である。図9に示すように、エンコーダ9100には、カスケード接続されたN個の第1タイプのネットワークブロック9110が含まれ、各第1タイプのネットワークブロック9110は、カスケード接続された1つのマルチヘッド注意ネットワーク層9111及び1つの順伝播型ニューラルネットワーク層9112を含み、マルチヘッド注意ネットワーク層9111には、複数の注意ネットワーク及び入出力加算層が含まれ、順伝播型ニューラルネットワーク層9112には、非線形変換層及び入出力加算層が含まれる。デコーダ9200には、カスケード接続されたN個の第2タイプのネットワークブロック9210が含まれ、各第2タイプのネットワークブロック9210は、カスケード接続された2つのマルチヘッド注意ネットワーク層9211及び9212と、1つの順伝播型ニューラルネットワーク層9213とを含み、デコーダ9200中のマルチヘッド注意ネットワーク層9211及び9212には、複数の注意ネットワーク及び入出力加算層が含まれ、順伝播型ニューラルネットワーク層9213には、非線形変換層及び入出力加算層が含まれる。
エンコーダ9100の出力は、デコーダ9200の入力とすることができ、デコーダ9200によって、エンコーダ9100が出力するデータを復号化処理する。該機械翻訳モデルに対してモデルトレーニングを行う場合、エンコーダ9100とデコーダ9200とを同時にトレーニングすべきであり、デコーダ9200が出力する予測翻訳テキストに対応するベクトルと、トレーニングサンプルに対応する標準ラベルベクトルとの間の類似度が所定の閾値に達する場合、該機械翻訳モデルが収束条件を満たすと考えられ、該機械翻訳モデルをターゲットニューラルネットワークモデルとすることができる。
なお、上記各マルチヘッド注意ネットワーク層は、いずれも非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルに対して特徴融合を行って、該マルチヘッド注意ネットワーク層に対応する特徴融合ベクトルを取得する。発明者らは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法によって機械翻訳モデルをトレーニングし、その分、機械翻訳モデルを取得する。バイリンガルエバリュエーションアンダースタディ(Bilingual Evaluation Understudy、BLEU)を用いて該機械翻訳モデルをテストし、表1に示すように、該機械翻訳モデルに対応する性能テスト結果である。
Figure 0007185014000018
ここで、論文[1]がテストサンプルであり、従来の機械翻訳モデルを用いて該テストサンプルを翻訳し、その評価結果が27.64点であり、該モデルに係るパラメータ数が88M(百万)であり、該機械翻訳モデルに対するトレーニング速度が毎秒2.04回反復するものである。モデル1は、図3に示す非線形変換方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを特徴融合ベクトルに融合し、該モデル1を利用して、テストサンプルとしての論文[1]を翻訳し、その評価結果が28.19点であり、該評価結果は、従来の機械翻訳モデルを用いて翻訳した評価結果に対して0.55点向上し、該モデルに係るパラメータ数は98Mであり、該モデル1に対するトレーニング速度は毎秒1.45回反復するものである。モデル2は、図5に示す非線形変換方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを特徴融合ベクトルに融合し、モデル2を利用して、テストサンプルとしての論文[1]を翻訳し、その評価結果が28.35点であり、該評価結果は、従来の機械翻訳モデルを用いて翻訳した評価結果に対して0.71点向上し、該モデルに係るパラメータ数は97Mであり、該モデル2に対するトレーニング速度は毎秒1.85回反復するものである。モデル3は、図7に示す非線形変換方式を用いて複数の注意ネットワークのそれぞれの出力ベクトルを特徴融合ベクトルに融合し、モデル3を利用して、テストサンプルとしての論文[1]を翻訳し、その評価結果が28.59点であり、該評価結果は、従来の機械翻訳モデルを用いて翻訳した評価結果に対して0.95点向上し、該モデルに係るパラメータ数は102Mであり、該モデル3に対するトレーニング速度は毎秒1.78回反復するものである。
比較により、ニューラルネットワークモデルが図3に示す非線形変換方式を用いるか、図5に示す非線形変換方式を用いるか、又は図7に示す非線形変換方式を用いるかに関わらず、本願の実施形態に係るトレーニング方法を用いてトレーニングされたニューラルネットワークモデルは、いずれも翻訳品質を効果的に向上させることができると共に、パラメータ数をわずかに増加させ、トレーニング速度を低減し、機械翻訳モデルの高効率性を確保することを見出した。
上記図9に示す機械翻訳モデルに対して、本願の実施形態は、該機械翻訳モデルを実際に適用する機械翻訳方法をさらに提供する。図10を参照すると、図10は、本願の実施形態に係る機械翻訳方法のフローチャートであり、説明の便宜上、以下、端末装置を実行主体として該機械翻訳方法を説明し、該機械翻訳方法が実際の応用においてサーバに適用されてよいことを理解されたい。図10に示すように、該機械翻訳方法は、以下のステップ901~903を含む。
ステップ901では、端末装置は、翻訳対象のコンテンツを取得する。
なお、上記翻訳対象のコンテンツは、具体的には、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも一方であってよく、異なるタイプの翻訳対象のコンテンツが異なる適用シーンに適用されてよい。例えば、翻訳対象のコンテンツが翻訳対象のテキストである場合、該翻訳対象のテキストを対応する言語に翻訳してよく、また、例えば、翻訳対象のコンテンツが翻訳対象のビデオである場合、該翻訳対象のビデオを、該ビデオに表示されるシーンに対応するテキストに翻訳してよく、さらに、例えば、翻訳対象のコンテンツが翻訳対象のオーディオである場合、該翻訳対象のオーディオを、該オーディオに対応するテキストに翻訳してよく、又は、特定の言語に対応するテキストに翻訳してもよい。
翻訳対象のテキストについて、端末装置は、ユーザにテキスト入力ボックスを提供し、ユーザは、該テキスト入力ボックスに翻訳対象のテキストを入力し、それに応じて、端末装置は、ユーザによりテキスト入力ボックスに入力されたテキストを翻訳対象のコンテンツとして取得することができる。翻訳対象のビデオ及び/又はオーディオについて、端末装置は、ユーザにファイルのアップロード領域を提供し、ユーザは、翻訳対象のビデオ及び/又はオーディオを該翻訳対象のファイルのアップロード領域にドラッグし、それに応じて、端末装置は、ファイルのアップロード領域内にファイルが存在することを検出した場合、該ファイルを翻訳対象のコンテンツとすることができ、あるいは、端末装置は、ユーザにファイルアップロードキーを提供し、ユーザは、該ファイルアップロードキーをクリックすることにより、ファイルのアップロード操作をトリガーし、端末装置に記憶されているファイルから、翻訳対象のビデオ及び/又はオーディオを選択し、選択した翻訳対象のビデオ及び/又はオーディオをアップロードし、それにより、端末装置は、翻訳対象のコンテンツを取得することができる。
なお、該機械翻訳方法の実行主体がサーバである場合、サーバは、端末装置から翻訳対象のコンテンツを取得することができる。具体的には、サーバと端末装置とはネットワークを介して接続され、端末装置は、上記方式により翻訳対象のコンテンツを取得した後に、それに応じて、自体が取得した翻訳対象のコンテンツをネットワークを介してサーバに送信して、サーバに翻訳対象のコンテンツを取得させる。
ステップ902では、端末装置は、機械翻訳モデルにより該翻訳対象のコンテンツに対応する翻訳結果を取得する。
端末装置は、翻訳対象のコンテンツを取得した後に、それに応じて、翻訳対象のコンテンツを機械翻訳モデルに入力し、該機械翻訳モデルは、上記実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされたものであり、その具体的な構成は、図9を参照してよい。
機械翻訳モデルにおけるエンコーダは、回帰型ニューラルネットワークモデルであり、翻訳対象のコンテンツに対応するソースベクトル列を固定長の符号として読み取ることができ、機械翻訳モデルにおけるデコーダも回帰型ニューラルネットワークモデルであり、エンコーダの入力シーケンスを復号化して、ターゲットシーケンス、すなわち出力ラベルに対応するベクトル列を出力することができ、さらに、機械翻訳モデルは、デコーダが出力したベクトル列に基づいて出力ラベルを生成し、すなわち、翻訳対象のコンテンツに対応する翻訳結果を生成する。
なお、上記機械翻訳モデルは、マルチ注意機構に基づいて構築されたものであり、その中のエンコーダ及びデコーダにはいずれも複数の注意ネットワークが含まれ、該機械学習モデルは、エンコーダ及びデコーダにおける複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、いずれも非線形変換の方式を用い、ここでの非線形変換方式は、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルを処理することであってもよいし、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルを処理することであってもよいし、双線形モデルとベクトル連結とを適用して複数の注意ネットワークのそれぞれの出力ベクトルを処理することであってもよい。
ステップ903では、端末装置は、該翻訳結果を表示する。
端末装置は、機械翻訳モデルにより翻訳対象のコンテンツに対応する翻訳結果を決定した後に、該翻訳結果をユーザに直接的に表示してよい。
本実施形態に係る機械翻訳方法の実行主体がサーバである場合、サーバは、機械翻訳モデルにより翻訳対象のコンテンツに対応する翻訳結果を決定した後に、決定した翻訳結果を端末装置に送信して、端末装置により該翻訳結果をユーザに表示してよい。
本実施形態に係る機械翻訳方法は、機械翻訳モデルを適用して翻訳対象のコンテンツを翻訳し、翻訳対象のコンテンツに対応する翻訳結果を決定するものであり、適用される機械翻訳モデルは、上記実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされたものであり、該機械翻訳モデルがその中の各注意ネットワークの出力ベクトルを十分に相互作用させ、より情報量のある特徴融合ベクトルを生成することができるため、該機械翻訳モデルが最終的に出力する翻訳結果がより正確になることを確保することができる。
本願の実施形態に係るニューラルネットワークモデルのトレーニング方法をさらに理解するために、以下、サーバがテキストを翻訳するための機械翻訳モデルをトレーニングすることを例として、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法を全体的に説明する。
サーバは、まず、関連付けられたデータベースからトレーニングサンプルセットを取得し、該トレーニングサンプルセットは、大量のトレーニングサンプル及びその対応する標準ラベルベクトルを含む。テキストを翻訳するための機械翻訳モデルについて、トレーニングサンプルは、翻訳対象のテキストとなるべきであり、その対応する標準ラベルは標準翻訳テキストであり、それに応じて、標準ラベルベクトルは標準翻訳テキストに対応するベクトルであることを理解されたい。
サーバは、トレーニングサンプルセットを取得した後に、トレーニングサンプルセット中のトレーニングサンプルを予め構築された機械翻訳モデルに一々入力し、該機械翻訳モデルは、注意機構に基づいて構築されたニューラルネットワークモデルであり、エンコーダ及びデコーダを含み、エンコーダは、カスケード接続された若干の第1タイプのネットワークブロックを含み、各第1タイプのネットワークブロックには、カスケード接続された1つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層が含まれ、デコーダは、カスケード接続された若干の第2タイプのネットワークブロックを含み、各第2タイプのネットワークブロックは、カスケード接続された2つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含む。
なお、上記第1タイプのネットワークブロック及び第2タイプのネットワークブロックに含まれるマルチヘッド注意ネットワーク層には、複数の注意ネットワークが含まれ、これらの注意ネットワークは、異なる次元から異なる特徴情報を取り込み、さらに、自体が取り込んだ特徴情報に基づいて出力ベクトルを適宜、生成することができる。
サーバは、機械翻訳モデルによりマルチヘッド注意ネットワーク層中の複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、ここでの非線形変換の方式は、具体的には、畳み込みを適用して複数の注意ネットワークのそれぞれの出力ベクトルからなる特徴マップについて特徴融合を行うこと、双線形モデルを適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うこと、及び双線形モデルとベクトル連結とを同時に適用して複数の注意ネットワークのそれぞれの出力ベクトルについて特徴融合を行うことであってよい。
機械翻訳モデルは、上記特徴融合ベクトルに基づいて、該トレーニングサンプルに対応する所定のラベルベクトルを生成し、さらに、該所定のラベルベクトルと該トレーニングサンプルに対応する標準ラベルベクトルとを比較して、比較結果を生成し、該比較結果に基づいて機械翻訳モデルのモデルパラメータを反復調整して、該機械翻訳モデルが収束条件を満たすまで該機械翻訳モデルの性能を段階的に最適化し、収束条件を満たす当該機械翻訳モデルをターゲット機械翻訳モデルとして、該ターゲット機械翻訳モデルを実際の応用に供することができる。
以上説明したニューラルネットワークモデルのトレーニング方法に対して、本願は、上記ニューラルネットワークモデルのトレーニング方法を実際に適用して実現するために、対応するニューラルネットワークモデルのトレーニング装置をさらに提供する。
図11を参照すると、図11は、図1に示す上記ニューラルネットワークモデルのトレーニング方法に対応するニューラルネットワークモデルのトレーニング装置1000の概略構成図であり、該ニューラルネットワークモデルのトレーニング装置1000は、
各トレーニングサンプル及びそれ(すなわち、該トレーニングサンプル)に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得するための取得モジュール1001と、
複数の注意ネットワークを含むニューラルネットワークモデルに上記トレーニングサンプルセット中のトレーニングサンプルを入力する(すなわち、上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力する)ための入力モジュール1002と、
上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための特徴融合ベクトル生成モジュール1003と、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得するための予測ラベルベクトル取得モジュール1004と、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、上記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するための取得モジュール1005と、を含む。
任意選択で、図11に示すニューラルネットワークモデルのトレーニング装置を基に、図12を参照すると、図12は、特徴融合ベクトル生成モジュール1003の概略構成図であり、該特徴融合ベクトル生成モジュール1003は、具体的には、
上記複数の注意ネットワークのそれぞれの出力ベクトルを1枚の二次元の特徴マップとして並べてスタックするためのスタックサブモジュール1101と、
畳み込みニューラルネットワークを介して上記特徴マップから特徴を抽出して、3次元テンソルを取得するための特徴抽出サブモジュール1102と、
上記3次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するためのシリアライズ処理サブモジュール1103と、
上記一次元ベクトルを線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための線形変換サブモジュール1104と、を含む。
任意選択で、図12に示す特徴融合ベクトル生成モジュール1003を基に、その中の特徴抽出サブモジュール1102は、具体的には、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込み操作を行って、3次元テンソルを取得するか、又は、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込みとプーリング操作を行って、3次元テンソルを取得する。
任意選択で、図11に示すニューラルネットワークモデルのトレーニング装置を基に、図13を参照すると、図13は、別の特徴融合ベクトル生成モジュール1003の概略構成図であり、該特徴融合ベクトル生成モジュール1003は、具体的には、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するための連結サブモジュール1201と、
上記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するためのマッピングサブモジュール1202と、
上記第2のベクトルと上記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するための乗算サブモジュール1203と、
上記第4のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための線形マッピングサブモジュール1204と、を含む。
任意選択で、図11に示すニューラルネットワークモデルのトレーニング装置を基に、図14を参照すると、図14は、更なる特徴融合ベクトル生成モジュール1003の概略構成図であり、該特徴融合ベクトル生成モジュール1003は、具体的には、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するための連結サブモジュール1301と、
上記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するためのマッピングサブモジュール1302と、
上記第2のベクトルと上記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するための乗算サブモジュール1303と、
上記第4のベクトルと上記第1のベクトルとを融合して、第5のベクトルを取得するための融合サブモジュール1304と、
上記第5のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するための線形マッピングサブモジュール1305と、を含む。
任意選択で、上記図13及び図14に示す特徴融合ベクトル生成モジュールを基に、その中のマッピングサブモジュール1202及び1302は、具体的には、
上記第1のベクトルに対して線形マッピングを2回行って、第2のベクトル及び第3のベクトルを取得するか、又は、
上記第1のベクトルに対して非線形マッピングを2回行って、第2のベクトル及び第3のベクトルを取得する。
任意選択で、上記図14に示す特徴融合ベクトル生成モジュールを基に、その中の融合サブモジュール1304は、具体的には、
上記第4のベクトルと上記第1のベクトルとを順に連結して、第5のベクトルを取得するか、又は、
上記第4のベクトルと上記第1のベクトルとを要素の位置に応じて対応させて乗算して、第5のベクトルを取得するか、又は、
上記第4のベクトルと上記第1のベクトルとを要素の位置に応じて対応させて加算して、第5のベクトルを取得する。
任意選択で、上記図11に示すニューラルネットワークモデルのトレーニング装置を基に、取得モジュール1005は、具体的には、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定し、
上記損失関数値がターゲット閾値より大きければ、上記ニューラルネットワークモデルのモデルパラメータを反復調整し、
上記損失関数値がターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとする。
任意選択で、上記ニューラルネットワークモデルは、機械翻訳モデルであり、エンコーダ及びデコーダを含み、
上記エンコーダは、カスケード接続されたN個の第1タイプのネットワークブロックを含み、各第1タイプのネットワークブロックは、カスケード接続された1つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、
上記デコーダは、カスケード接続されたN個の第2タイプのネットワークブロックを含み、各第2タイプのネットワークブロックは、カスケード接続された2つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、上記Nは1以上の正の整数である。
任意選択で、上記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも一方であり、上記トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである。
上記ニューラルネットワークモデルのトレーニング装置において、ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを線形連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークの出力ベクトルを十分に相互作用させることにより、より情報量のある特徴融合ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保することができる。
以上説明した機械翻訳方法に対して、本願は、上記機械翻訳方法を実際に適用して実現するために、対応する機械翻訳装置をさらに提供する。
図15を参照すると、図15は、上記図10に示す機械翻訳方法に対応する機械翻訳装置1400の概略構成図であり、該機械翻訳装置1400は、
翻訳対象のコンテンツを取得するための取得モジュール1401と、
図2~図8に示すニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルにより、上記翻訳対象のコンテンツに対応する翻訳結果を取得するための翻訳モジュール1402と、
上記翻訳結果を表示するための表示モジュール1403と、を含む。
本実施形態に係る機械翻訳装置は、機械翻訳モデルを適用して翻訳対象のコンテンツを翻訳し、翻訳対象のコンテンツに対応する翻訳結果を決定するものであり、適用される機械翻訳モデルは、上記実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされたものであり、該機械翻訳モデルがその中の各注意ネットワークの出力ベクトルを十分に相互作用させ、より情報量のある特徴融合ベクトルを生成することができるため、該機械翻訳モデルが最終的に出力する翻訳結果がより正確になることを確保することができる。
本願は、ニューラルネットワークモデルをトレーニングするためのコンピュータ装置をさらに提供し、該コンピュータ装置は、具体的には、サーバであってよく、図16を参照すると、図16は、本願の実施形態に係るニューラルネットワークモデルをトレーニングするためのサーバの概略構成図であり、該サーバ1500は、構成又は性能によって大きく異る可能性があり、1つ以上の中央処理装置(central processing units、CPU)1522(例えば、1つ以上のプロセッサ)と、メモリ1532と、アプリケーションプログラム1542又はデータ1544を記憶する1つ以上の記憶媒体1530(例えば、1つ以上の大容量記憶装置)と、を含んでよい。メモリ1532及び記憶媒体1530は、一時的メモリでも永続的メモリでもよい。記憶媒体1530に記憶されたプログラムは、1つ以上のモジュール(図示せず)を含んでよく、各モジュールはサーバに対する一連の命令操作を含んでよい。さらに、中央処理装置1522は、記憶媒体1530と通信して、記憶媒体1530における一連の命令操作をサーバ1500で実行するように構成されてよい。
サーバ1500は、1つ以上の電源1526、1つ以上の有線又は無線ネットワークインタフェース1550、1つ以上の入出力インタフェース1558、及び/又は1つ以上のオペレーティングシステム1541、例えば、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなどをさらに含んでよい。
上記実施形態では、サーバによって実行されるステップは、該図16に示すサーバの構成に基づくものであってよい。
CPU1522は、プログラムコードに基づいて、
トレーニングサンプル及びそれ(すなわち、該トレーニングサンプル)に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得するステップと、
複数の注意ネットワークを含むニューラルネットワークモデルに上記トレーニングサンプルセット中のトレーニングサンプルを入力する(すなわち、上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力する)ステップと、
上記ニューラルネットワークモデルにより、上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得するステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、上記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を実行する。
任意選択で、CPU1522は、プログラムコードに基づいて、
上記複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックするステップと、
畳み込みニューラルネットワークを介して上記特徴マップから特徴を抽出して、3次元テンソルを取得するステップと、
上記3次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するステップと、
上記一次元ベクトルを線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行する。
任意選択で、CPU1522は、プログラムコードに基づいて、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込み操作を行って、上記3次元テンソルを取得するステップ、又は、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込みとプーリング操作を行って、上記3次元テンソルを取得するステップを実行する。
任意選択で、CPU1522は、プログラムコードに基づいて、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するステップと、
上記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するステップと、
上記第2のベクトルと上記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するステップと、
上記第4のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行する。
任意選択で、CPU1522は、プログラムコードに基づいて、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するステップと、
上記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するステップと、
上記第2のベクトルと上記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するステップと、
上記第4のベクトルと上記第1のベクトルとを融合して、第5のベクトルを取得するステップと、
上記第5のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行する。
任意選択で、CPU1522は、プログラムコードに基づいて、
上記第4のベクトルと上記第1のベクトルとを順に連結して、第5のベクトルを取得するステップ、又は、
上記第4のベクトルと上記第1のベクトルとを要素の位置に応じて対応させて乗算して、第5のベクトルを取得するステップ、又は、
上記第4のベクトルと上記第1のベクトルとを要素の位置に応じて対応させて加算して、第5のベクトルを取得するステップを実行する。
任意選択で、CPU1522は、プログラムコードに基づいて、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定するステップと、
上記損失関数値がターゲット閾値より大きければ、上記ニューラルネットワークモデルのモデルパラメータを反復調整するステップと、
上記損失関数値が上記ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとするステップと、を実行する。
任意選択で、上記ニューラルネットワークモデルは、機械翻訳モデルであり、エンコーダ及びデコーダを含み、
上記エンコーダは、カスケード接続されたN個の第1タイプのネットワークブロックを含み、各第1タイプのネットワークブロックは、カスケード接続された1つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、
上記デコーダは、カスケード接続されたN個の第2タイプのネットワークブロックを含み、各第2タイプのネットワークブロックは、カスケード接続された2つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、上記Nは1以上の正の整数である。
任意選択で、上記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも一方であり、上記トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである。
また、本願は、コンピュータ装置をさらに提供し、該コンピュータ装置(例えば、サーバ)は、上記図16に示すサーバの構成と類似し、そのメモリは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、そのプロセッサは、該機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する。
本願の実施形態は、ニューラルネットワークモデルをトレーニングするための別の機器をさらに提供し、該機器は、端末装置であってよく、図17に示すように、説明の便宜上、本願の実施形態に関連する部分のみを示し、具体的な技術的詳細を開示せず、本願の実施形態の方法の部分を参照されたい。該端末は、携帯電話、タブレット、パーソナルデジタルアシスタント(英語全称:Personal Digital Assistant、英略語:PDA)、ポイント・オブ・セールス(英語全称:Point of Sales、英略語:POS)、車載コンピュータなどを含む任意の端末装置であってよく、端末が携帯電話であることを例とする。
図17は、本願の実施形態に係る端末に関連する携帯電話の一部の構成のブロック図を示す。図17を参照すると、携帯電話は、無線周波数(英語全称:Radio Frequency、英略語:RF)回路1610、メモリ1620、入力ユニット1630、表示ユニット1640、センサ1650、オーディオ回路1660、ワイヤレスフィディリティー(英語全称:wireless fidelity、英訳語:WiFi)モジュール1670、プロセッサ1680、及び電源1690などの部材を含む。当業者が理解できるように、図17に示す携帯電話の構成は、携帯電話を限定するものではなく、図示より多いか又は少ない部材を含んでもよく、ある部材を組み合わせたり、部材を異なるように配置したりしてもよい。
以下、図17を参照しながら携帯電話の各構成部材を具体的に説明する。
RF回路1610は、情報の送受信、又は通話中の信号の送受信に用いられてよく、特に基地局からのダウンリンク情報を受信した後、プロセッサ1680に送って処理させ、また、アップリンクのデータを基地局に送信する。通常、RF回路1610は、アンテナ、少なくとも1つの増幅器、送受信機、カプラ、低雑音増幅器(英語全称:Low Noise Amplifier、英略語:LNA)、デュプレクサなどを含むが、それらに限定されない。また、RF回路1610は、さらに、無線通信によりネットワーク及び他の装置と通信することができる。上記無線通信は、いずれかの通信規格又はプロトコルを使用してよく、移動体通信用グローバルシステム(英語全称:Global System of Mobile communication、英略語:GSM)、汎用パケット無線サービス(英語全称:General Packet Radio Service、GPRS)、符号分割多元連結(英語全称:Code Division Multiple Access、英略語:CDMA)、広帯域符号分割多元連結(英語全称:Wideband Code Division Multiple Access、英略語:WCDMA)、ロングタームエボリューション(英語全称:Long Term Evolution、英略語:LTE)、電子メール、ショートメッセージサービス(英語全称:Short Messaging Service、SMS)などを含むが、これらに限定されない。
メモリ1620は、ソフトウェアプログラム及びモジュールを記憶してよく、プロセッサ1680は、メモリ1620に記憶されているソフトウェアプログラム及びモジュールを実行することにより、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ1620は、主に、オペレーティングシステム、少なくとも1つの機能(例えば、音声再生機能、画像再生機能など)に必要なアプリケーションプログラムなどを記憶できるプログラム記憶領域と、携帯電話の使用に応じて作成されたデータ(例えば、オーディオデータ、電話帳など)などを記憶できるデータ記憶領域とを含んでよい。また、メモリ1620は、高速ランダムアクセスメモリを含んでよく、また、例えば少なくとも1つの磁気ディスクメモリ、フラッシュメモリ素子などの不揮発性メモリ、又は他の揮発性固体メモリ素子を含んでもよい。
入力ユニット1630は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。具体的には、入力ユニット1630は、タッチパネル1631及び他の入力装置1632を含んでよい。タッチパネル1631は、タッチスクリーンとも呼ばれ、タッチパネル上又はその近くでのユーザのタッチ操作(例えば、指、スタイラスペンなどの任意の適切な物体又は付属品を用いてタッチパネル1631上又はタッチパネル1631の近くでのユーザの操作)を収集し、予め設定されたパターンに基づいて対応する接続装置を駆動することができる。任意選択で、タッチパネル1631は、タッチ検出装置及びタッチ制御装置という2つの部分を含んでよい。タッチ検出装置は、ユーザのタッチ位置を検出し、かつタッチ操作による信号を検出し、信号をタッチ制御装置に送信し、タッチ制御装置は、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換して、プロセッサ1680に送信し、プロセッサ1680から送信されたコマンドを受信して実行することができる。また、抵抗式、容量式、赤外線式及び表面弾性波式などの多くの形態でタッチパネル1631を実現することができる。タッチパネル1631に加えて、入力ユニット1630は、他の入力装置1632をさらに含んでよい。具体的には、他の入力装置1632は、物理キーボード、ファンクションキー(例えば、ボリューム調節キー、スイッチボタンなど)、トラックボール、マウス、ジョイスティックなどから選ばれる1種又は複数種を含んでよいが、これらに限定されない。
表示ユニット1640は、ユーザが入力した情報又はユーザに提供された情報及び携帯電話の様々なメニューを表示することができる。表示ユニット1640は、表示パネル1641を含んでよく、任意選択で、液晶ディスプレイ(英語全称:Liquid Crystal Display、英略語:LCD)、有機発光ダイオード(英語全称:Organic Light-Emitting Diode、英略語:OLED)などの形態で表示パネル1641を構成してよい。さらに、タッチパネル1631は、表示パネル1641をカバーしてよく、タッチパネル1631がタッチパネル上又はその近くでのタッチ操作を検出した後、プロセッサ1680に送信してタッチイベントのタイプを決定し、その後に、プロセッサ1680は、タッチイベントのタイプに応じて対応する視覚的出力を表示パネル1641に提供する。図17では、タッチパネル1631及び表示パネル1641は、2つの独立した部材として携帯電話の入出力機能を実現しているが、一部の実施形態では、タッチパネル1631を表示パネル1641と一体化して携帯電話の入出力機能を実現してよい。
携帯電話は、例えば光センサ、モーションセンサ及び他のセンサなどの少なくとも1つのセンサ1650をさらに含んでよい。具体的には、光センサは、環境光線の明さに応じて表示パネル1641の輝度を調整することができる環境光センサと、携帯電話が耳に移動するときに表示パネル1641及び/又はバックライトをオフにすることができる近接センサとを含んでよい。モーションセンサの一種として、加速度計センサは、各方向(一般に3軸)の加速度の大きさを検出することができ、静止時に重力の大きさや方向を検出することができ、携帯電話の姿勢(例えば、横縦向き/横向きの切替、ゲーム関連、磁力計の姿勢較正)を認識するアプリケーション、振動認識に関連する機能(例えば、歩数計、タッピング)などに用いることができ、携帯電話にはジャイロスコープ、気圧計、湿度計、温度計、赤外線センサなどの他のセンサも配置されてよく、ここでは説明を省略する。
オーディオ回路1660、スピーカ1661、マイクロフォン1662は、ユーザと携帯電話との間のオーディオインタフェースを提供することができる。オーディオ回路1660は、受信されたオーディオデータを変換した電気信号をスピーカ1661に伝送し、スピーカ1661によって音声信号に変換して出力することができる一方、マイクロフォン1662は、収集された音声信号を電気信号に変換し、オーディオ回路1660によって受信してオーディオデータに変換し、オーディオデータをプロセッサ1680に出力して処理した後に、RF回路1610により、例えば他の携帯電話に送信するか、又は更なる処理のためにオーディオデータをメモリ1620に出力する。
WiFiは、短距離無線伝送技術に属し、携帯電話は、WiFiモジュール1670によりユーザの電子メールの送受信、ウェブページの閲覧、ストリーミングメディアへのアクセスなどを支援することができ、ユーザに無線の広帯域インターネットアクセスを提供する。図17は、WiFiモジュール1670を示しているが、携帯電話の必須構成ではなく、必要に応じて発明の本質を変更しない範囲で省略してよいことを理解されたい。
プロセッサ1680は、携帯電話のコントロールセンターであり、様々なインタフェース及び回線を利用して携帯電話全体の各部分を接続し、メモリ1620内に記憶されたソフトウェアプログラム及び/又はモジュールを動作させるか又は実行し、メモリ1620内に記憶されたデータを呼び出すことにより、携帯電話の様々な機能を実行してデータを処理し、携帯電話全体を監視する。任意選択で、プロセッサ1680は、1つ以上の処理ユニットを含んでよく、任意選択で、プロセッサ1680に、主にオペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムなどを処理するアプリケーションプロセッサと、主に無線通信を処理するモデムプロセッサと、を集積することができる。上記モデムプロセッサをプロセッサ1680に集積しなくてもよいことを理解されたい。
携帯電話は、各部材に給電する電源1690(例えば、電池)をさらに含み、任意選択で、電源は、電源管理システムによりプロセッサ1680に論理的に接続されることにより、電源管理システムにより充電、放電、及び消費電力の管理などの機能を実現することができる。
図示しないが、携帯電話は、カメラ、ブルートゥースモジュールなどをさらに含んでよく、ここでは説明を省略する。
本願の実施形態では、該端末に含まれるプロセッサ1680は、
トレーニングサンプル及びそれ(すなわち、該トレーニングサンプル)に対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得し、
複数の注意ネットワークを含むニューラルネットワークモデルに上記トレーニングサンプルセット中のトレーニングサンプルを入力し(すなわち、上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し)、
上記ニューラルネットワークモデルにより、上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得し、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するという機能をさらに有する。
任意選択で、プロセッサ1680は、さらに、本願の実施形態におけるニューラルネットワークモデルのトレーニング方法のいずれかの具体的な実現態様の方法ステップを実行することができる。
また、本願は、コンピュータ装置をさらに提供し、該コンピュータ装置(例えば、端末装置)は、上記図17に示す端末装置の構成と類似し、そのメモリは、本願の実施形態に係るニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、そのプロセッサは、該機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する。
本願の実施形態は、コンピュータ可読記憶媒体をさらに提供し、上記各実施形態で説明したニューラルネットワークモデルのトレーニング方法のいずれかの実施態様を実行するか、又は上記実施形態で説明した機械翻訳方法を実行するためのプログラムコードを記憶する。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
トレーニングサンプルセットを取得するステップであって、上記トレーニングサンプルセットは、トレーニングサンプル及び上記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
上記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、上記ニューラルネットワークモデルにより、上記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
上記ニューラルネットワークモデルが上記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、上記予測ラベルベクトルが、上記トレーニングサンプルに対応するものである、ステップと、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、上記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を実行するために用いられる。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックするステップと、
畳み込みニューラルネットワークを介して上記特徴マップから特徴を抽出して、3次元テンソルを取得するステップと、
上記3次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するステップと、
上記一次元ベクトルを線形変換して、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行するために用いられる。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
畳み込みニューラルネットワークを介して上記特徴マップに対して畳み込み操作を行って、上記3次元テンソルを取得するステップ、又は、
畳み込みニューラルネットワークを用いて上記特徴マップに対して畳み込みとプーリング操作を行って、上記3次元テンソルを取得するステップを実行するために用いられる。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するステップと、
上記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するステップと、
上記第2のベクトルと上記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するステップと、
上記第4のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行するために用いられる。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するステップと、
上記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するステップと、
上記第2のベクトルと上記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するステップと、
上記第4のベクトルと上記第1のベクトルとを融合して、第5のベクトルを取得するステップと、
上記第5のベクトルに対して線形マッピングを行って、上記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を実行するために用いられる。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
上記第4のベクトルと上記第1のベクトルとを順に連結して、第5のベクトルを取得するステップ、又は、
上記第4のベクトルと上記第1のベクトルとを要素の位置に応じて対応させて乗算して、第5のベクトルを取得するステップ、又は、
上記第4のベクトルと上記第1のベクトルとを要素の位置に応じて対応させて加算して、第5のベクトルを取得するステップを実行するために用いられる。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定するステップと、
上記損失関数値がターゲット閾値より大きければ、上記ニューラルネットワークモデルのモデルパラメータを反復調整するステップと、
上記損失関数値が上記ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとするステップと、を実行するために用いられる。
任意選択で、上記ニューラルネットワークモデルは、機械翻訳モデルであり、エンコーダ及びデコーダを含み、
上記エンコーダは、カスケード接続されたN個の第1タイプのネットワークブロックを含み、各第1タイプのネットワークブロックは、カスケード接続された1つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、
上記デコーダは、カスケード接続されたN個の第2タイプのネットワークブロックを含み、各第2タイプのネットワークブロックは、カスケード接続された2つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、上記Nは1以上の正の整数である。
任意選択で、上記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも一方であり、上記トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである。
任意選択で、該記憶媒体に記憶されたプログラムコードは、
翻訳対象のコンテンツを取得するステップと、
機械翻訳モデルにより、上記翻訳対象のコンテンツに対応する翻訳結果を取得するステップであって、上記機械翻訳モデルが、上記各実施形態で説明したモデルトレーニング方法でトレーニングされたものである、ステップと、
上記翻訳結果を表示するステップと、を実行するために用いられる。
本願の実施形態は、コンピュータ上で実行されると、コンピュータに、上記各実施形態で説明したニューラルネットワークモデルのトレーニング方法のいずれかの実施態様を実行させるか、又は、上記実施形態で説明した機械翻訳方法を実行させる命令を含むコンピュータプログラム製品をさらに提供する。
当業者が明確に理解できるように、容易かつ簡潔に説明するために、上述したシステム、装置及びユニットの具体的な動作プロセスは前述の方法の実施形態における対応プロセスを参照すればよく、ここでは説明を省略する。
以上の技術案から分かるように、本願の実施形態は、以下の利点を有する。
本願の実施形態に係るニューラルネットワークモデルのトレーニング方法において、まず、トレーニングサンプル及びその対応する標準ラベルベクトルを含むトレーニングサンプルセットを取得し、次に、複数の注意ネットワークを含むニューラルネットワークモデルに該トレーニングサンプルセット中のトレーニングサンプルを入力し、そして、該ニューラルネットワークモデルにより、複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、複数の注意ネットワークに対応する特徴融合ベクトルを取得し、さらに、ニューラルネットワークモデルが特徴融合ベクトルに基づいて出力した、トレーニングサンプルに対応する予測ラベルベクトルを取得し、該予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、ニューラルネットワークモデルのモデルパラメータを調整して、ターゲットニューラルネットワークモデルを取得する。上記トレーニング方法において、複数の注意ネットワークのそれぞれの出力ベクトルを融合する場合、非線形変換の方式を用いて、各注意ネットワークのそれぞれの出力ベクトルを融合して特徴融合ベクトルを取得することは、従来技術における、各注意ネットワークのそれぞれの出力ベクトルを連結して特徴融合ベクトルを取得することに比べて、このような非線形変換の方式が各注意ネットワークの出力ベクトル間の複雑な関係を考慮に入れるため、各注意ネットワークのそれぞれの出力ベクトルを十分に相互作用させることができることにより、より情報量のある特徴融合特徴ベクトルを生成し、さらに最終的な出力表現効果がより高いことを確保し、該トレーニング方法に基づいて、トレーニングされたニューラルネットワークモデルがより強い学習能力を持つようにする。
本願に係る一部の実施形態では、開示されたシステム、装置及び方法は他の方式で実現できることを理解されたい。例えば、以上で説明された装置の実施形態は、例示的なものに過ぎず、例えば、上記ユニットの分割は、論理的な機能の分割に過ぎず、実際の実施において他の分割仕様を有してもよく、例えば、複数のユニット又は構成要素は組み合わせるか又は他のシステムに集積されてもよく、或いは一部の特徴を無視するか、又は実行しなくてもよい。また、図示又は検討された互いの結合、直接的な結合又は通信接続は、いくつかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
上記分離した部材として説明されたユニットは、物理的に分離してもよく、物理的に分離しなくてもよく、ユニットとして表示された部材は、物理的なユニットであってもよく、物理的なユニットではなくてもよく、つまり、1つの場所に位置してもよく、複数のネットワークユニット上に分布してもよい。実際のニーズに応じて、それらのうちの一部又は全部のユニットを選択して本実施形態の技術手段の目的を達成することができる。
また、本願の各実施形態中の各機能ユニットは、全てが1つの処理ユニットに集積されてもよく、それぞれが物理的に独立してもよく、2つ以上のユニットが1つのユニットに集積されてもよい。上記集積されたユニットは、ハードウェアの形態で実現されてもよく、ソフトウェア機能ユニットの形態で実現されてもよい。
上記集積されたユニットは、ソフトウェア機能ユニットの形態で実現されて独立な製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本願の技術手段は、本質的に従来技術に対する貢献のある部分又は該技術手段の全部又は一部をソフトウェア製品の形態で実現することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、1つのコンピュータ装置(パーソナルコンピュータ、サーバ又はネットワーク装置などであってよい)に本願の各実施形態に記載の方法の全部又は一部のステップを実行させるいくつかの命令を含む。前述の記憶媒体は、Uディスク、リムーバブルハードディスク、リードオンリーメモリ(英語全称:Read-Only Memory、英略語:ROM)、ランダムアクセスメモリ(英語全称:Random Access Memory、英略語:RAM)、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる様々な媒体を含む。
以上の記載のように、以上の実施形態は、本願の技術手段を説明するためのものに過ぎず、それを限定するものではなく、前述した実施形態を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、依然として前述した各実施形態に記載の技術手段を変更するか、又はその一部の技術的特徴に等価置換を行うことができ、これらの修正又は置換により、対応する技術手段の本質は、本願の各実施形態の技術手段の主旨及び範囲から逸脱することにならない。

Claims (12)

  1. コンピュータ装置が実行するニューラルネットワークモデルのトレーニング方法であって、
    トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
    前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
    前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
    トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含み、
    前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得する前記ステップは、
    前記複数の注意ネットワークのそれぞれの出力ベクトルを二次元の特徴マップとして並べてスタックするステップと、
    畳み込みニューラルネットワークを介して前記特徴マップから特徴を抽出して、3次元テンソルを取得するステップと、
    前記3次元テンソルに対してシリアライズ処理を行って、一次元ベクトルを取得するステップと、
    前記一次元ベクトルを線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を含むことを特徴とするニューラルネットワークモデルのトレーニング方法。
  2. 畳み込みニューラルネットワークを介して前記特徴マップから特徴を抽出して、3次元テンソルを取得する前記ステップは、
    畳み込みニューラルネットワークを用いて前記特徴マップに対して畳み込み操作を行い、前記3次元テンソルを取得するステップ、又は、
    畳み込みニューラルネットワークを用いて前記特徴マップに対して畳み込みとプーリング操作を行い、前記3次元テンソルを取得するステップを含む、ことを特徴とする請求項に記載の方法。
  3. コンピュータ装置が実行するニューラルネットワークモデルのトレーニング方法であって、
    トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
    前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
    前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
    トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含み、
    前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得する前記ステップは、
    前記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するステップと、
    前記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するステップと、
    前記第2のベクトルと前記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するステップと、
    前記第4のベクトルに対して線形マッピングを行って、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を含むことを特徴とする方法。
  4. コンピュータ装置が実行するニューラルネットワークモデルのトレーニング方法であって、
    トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットは、トレーニングサンプル及び前記トレーニングサンプルに対応する標準ラベルベクトルを含む、ステップと、
    前記トレーニングサンプルセット中のトレーニングサンプルをニューラルネットワークモデルの複数の注意ネットワークに入力し、前記ニューラルネットワークモデルにより、前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、
    前記ニューラルネットワークモデルが前記特徴融合ベクトルに基づいて出力した予測ラベルベクトルを取得するステップであって、前記予測ラベルベクトルが、前記トレーニングサンプルに対応するものである、ステップと、
    トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得するステップと、を含み、
    前記複数の注意ネットワークのそれぞれの出力ベクトルを非線形変換して、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得する前記ステップは、
    前記複数の注意ネットワークのそれぞれの出力ベクトルを連結して、第1のベクトルを取得するステップと、
    前記第1のベクトルに対してマッピングを2回行って、それぞれ第2のベクトル及び第3のベクトルを取得するステップと、
    前記第2のベクトルと前記第3のベクトルとを要素に応じて対応させて乗算して、第4のベクトルを取得するステップと、
    前記第4のベクトルと前記第1のベクトルとを融合して、第5のベクトルを取得するステップと、
    前記第5のベクトルに対して線形マッピングを行って、前記複数の注意ネットワークに対応する特徴融合ベクトルを取得するステップと、を含むことを特徴とする方法。
  5. 前記第4のベクトルと前記第1のベクトルとを融合して、第5のベクトルを取得する前記ステップは、
    前記第4のベクトルと前記第1のベクトルとを順に連結して、第5のベクトルを取得するステップ、又は、
    前記第4のベクトルと前記第1のベクトルとを要素の位置に応じて対応させて乗算して、第5のベクトルを取得するステップ、又は、
    前記第4のベクトルと前記第1のベクトルとを要素の位置に応じて対応させて加算して、第5のベクトルを取得するステップを含む、ことを特徴とする請求項に記載の方法。
  6. トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、収束条件が満たされるまで、前記ニューラルネットワークモデルのモデルパラメータを反復調整して、ターゲットニューラルネットワークモデルを取得する前記ステップは、
    トレーニングサンプルに対応する予測ラベルベクトルと標準ラベルベクトルとの比較結果に基づいて、損失関数値を決定するステップと、
    前記損失関数値がターゲット閾値より大きければ、前記ニューラルネットワークモデルのモデルパラメータを反復調整するステップと、
    前記損失関数値が前記ターゲット閾値以下であれば、現在のニューラルネットワークモデルが収束条件を満たすと決定し、現在のニューラルネットワークモデルをターゲットニューラルネットワークモデルとするステップと、を含むことを特徴とする請求項1~のいずれか1項に記載の方法。
  7. 前記ニューラルネットワークモデルは、機械翻訳モデルであり、エンコーダ及びデコーダを含み、
    前記エンコーダは、カスケード接続されたN個の第1タイプのネットワークブロックを含み、各第1タイプのネットワークブロックは、カスケード接続された1つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、
    前記デコーダは、カスケード接続されたN個の第2タイプのネットワークブロックを含み、各第2タイプのネットワークブロックは、カスケード接続された2つのマルチヘッド注意ネットワーク層及び1つの順伝播型ニューラルネットワーク層を含み、
    前記Nは1以上の正の整数である、ことを特徴とする請求項1~のいずれか1項に記載の方法。
  8. 前記トレーニングサンプルは、翻訳対象のテキスト、ビデオ又はオーディオのうちの少なくとも1つであり、
    前記トレーニングサンプルに対応する標準ラベルは、標準翻訳テキストである、ことを特徴とする請求項1~のいずれか1項に記載の方法。
  9. コンピュータ装置が実行する機械翻訳方法であって、
    翻訳対象のコンテンツを取得するステップと、
    機械翻訳モデルにより、前記翻訳対象のコンテンツに対応する翻訳結果を取得するステップであって、前記機械翻訳モデルが、上記請求項1~のいずれか1項に記載のニューラルネットワークモデルのトレーニング方法でトレーニングされたものである、ステップと、
    前記翻訳結果を表示するステップと、を含むことを特徴とする機械翻訳方法。
  10. プロセッサ及びメモリを含むコンピュータ装置であって、
    前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
    前記プロセッサは、前記プログラムコードに基づいて、請求項1~のいずれか1項に記載のニューラルネットワークモデルのトレーニング方法を実行する、ことを特徴とするコンピュータ装置。
  11. プロセッサ及びメモリを含むコンピュータ装置であって、
    前記メモリは、上記請求項1~のいずれか1項に記載のニューラルネットワークモデルのトレーニング方法でトレーニングされた機械翻訳モデルを記憶し、
    前記プロセッサは、機械翻訳モデルを実行して、翻訳対象のコンテンツに対応する翻訳結果を取得する、ことを特徴とするコンピュータ装置。
  12. コンピュータに、上記請求項1~のいずれか1項に記載のニューラルネットワークモデルのトレーニング方法を実行させるか、又は、上記請求項に記載の機械翻訳方法を実行させるためのプログラム。
JP2021505689A 2018-11-28 2019-11-26 モデルトレーニング方法、機械翻訳方法、コンピュータ装置及びプログラム Active JP7185014B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811436794.0A CN110162799B (zh) 2018-11-28 2018-11-28 模型训练方法、机器翻译方法以及相关装置和设备
CN201811436794.0 2018-11-28
PCT/CN2019/120975 WO2020108483A1 (zh) 2018-11-28 2019-11-26 模型训练方法、机器翻译方法、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021533466A JP2021533466A (ja) 2021-12-02
JP7185014B2 true JP7185014B2 (ja) 2022-12-06

Family

ID=67645249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021505689A Active JP7185014B2 (ja) 2018-11-28 2019-11-26 モデルトレーニング方法、機械翻訳方法、コンピュータ装置及びプログラム

Country Status (4)

Country Link
US (1) US20210201147A1 (ja)
JP (1) JP7185014B2 (ja)
CN (1) CN110162799B (ja)
WO (1) WO2020108483A1 (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162799B (zh) * 2018-11-28 2023-08-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN109558597B (zh) * 2018-12-17 2022-05-24 北京百度网讯科技有限公司 文本翻译方法及装置、设备及存储介质
CN110474844B (zh) * 2019-06-28 2021-06-08 天津大学 高性能智能路由器学习型索引数据结构的训练方法和芯片
CN110717342B (zh) * 2019-09-27 2023-03-14 电子科技大学 一种基于transformer的距离参量对齐翻译方法
US11568049B2 (en) * 2019-09-27 2023-01-31 Mcafee, Llc Methods and apparatus to defend against adversarial machine learning
CN110674305B (zh) * 2019-10-10 2023-05-12 天津师范大学 一种基于深层特征融合模型的商品信息分类方法
CN110765966B (zh) * 2019-10-30 2022-03-25 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
TWI732370B (zh) * 2019-12-04 2021-07-01 財團法人工業技術研究院 神經網路模型的訓練裝置和訓練方法
CN111027681B (zh) * 2019-12-09 2023-06-27 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN112949313A (zh) * 2019-12-11 2021-06-11 中移(苏州)软件技术有限公司 信息处理模型训练方法、装置、设备及存储介质
CN110990624B (zh) * 2019-12-13 2024-03-01 上海喜马拉雅科技有限公司 一种视频推荐方法、装置、设备及存储介质
CN111243682A (zh) * 2020-01-10 2020-06-05 京东方科技集团股份有限公司 药物的毒性预测方法及装置、介质和设备
CN113450781B (zh) * 2020-03-25 2022-08-09 阿里巴巴集团控股有限公司 语音处理方法、语音编码器、语音解码器及语音识别***
CN111460732B (zh) * 2020-03-31 2023-05-16 深圳大学 一种平面电机非线性模型的构建方法
CN111461306B (zh) * 2020-03-31 2023-04-18 北京百度网讯科技有限公司 特征评估的方法及装置
CN111461225B (zh) * 2020-04-01 2022-04-01 支付宝(杭州)信息技术有限公司 客户聚类***及其方法
CN113539304B (zh) * 2020-04-21 2022-09-16 华为云计算技术有限公司 视频拆条方法和装置
CN111797589A (zh) * 2020-05-29 2020-10-20 华为技术有限公司 一种文本处理网络、神经网络训练的方法以及相关设备
CN111723548B (zh) * 2020-06-10 2024-04-30 腾讯科技(深圳)有限公司 评论扩展方法及装置
CN111695688B (zh) * 2020-06-11 2024-01-12 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及存储介质
CN111932493B (zh) * 2020-06-28 2024-06-07 北京国网富达科技发展有限责任公司 一种配电网局部放电超声波检测方法及***
CN112749797B (zh) * 2020-07-20 2022-09-27 腾讯科技(深圳)有限公司 一种神经网络模型的剪枝方法及装置
TWI749676B (zh) * 2020-08-03 2021-12-11 緯創資通股份有限公司 影像品質評估裝置及其影像品質評估方法
CN111897996B (zh) * 2020-08-10 2023-10-31 北京达佳互联信息技术有限公司 话题标签推荐方法、装置、设备及存储介质
CN111931061B (zh) * 2020-08-26 2023-03-24 腾讯科技(深圳)有限公司 标签映射方法、装置、计算机设备及存储介质
CN112287656B (zh) * 2020-10-12 2024-05-28 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN111931518A (zh) * 2020-10-15 2020-11-13 北京金山数字娱乐科技有限公司 一种翻译模型的训练方法及装置
CN114385809B (zh) * 2020-10-22 2024-06-18 中移(成都)信息通信科技有限公司 实体文本提取模型的训练方法、装置及设备
CN112380879A (zh) * 2020-11-16 2021-02-19 深圳壹账通智能科技有限公司 一种智能翻译方法、装置、计算机设备和存储介质
CN112434535B (zh) * 2020-11-24 2023-05-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112330711B (zh) * 2020-11-26 2023-12-05 北京奇艺世纪科技有限公司 模型生成方法、信息提取方法、装置及电子设备
CN112666479B (zh) * 2020-12-02 2023-05-16 西安交通大学 一种基于充电循环融合的电池寿命预测方法
CN114638238A (zh) * 2020-12-16 2022-06-17 北京金山数字娱乐科技有限公司 一种神经网络模型的训练方法及装置
CN112580723B (zh) * 2020-12-18 2023-09-22 北京百度网讯科技有限公司 多模型融合方法、装置、电子设备和存储介质
CN112560988B (zh) * 2020-12-25 2023-09-19 竹间智能科技(上海)有限公司 一种模型训练方法及装置
CN113722975B (zh) * 2020-12-28 2023-12-05 京东城市(北京)数字科技有限公司 网络模型训练方法、室温预测方法、装置、设备及介质
CN112785391B (zh) * 2021-02-02 2024-02-09 微民保险代理有限公司 推荐处理方法、装置及智能设备、存储介质
CN112507995B (zh) * 2021-02-05 2021-06-01 成都东方天呈智能科技有限公司 一种跨模型人脸特征向量的转换***及方法
CN113010687B (zh) * 2021-03-03 2023-02-03 广州视源电子科技股份有限公司 一种习题标签预测方法、装置、存储介质以及计算机设备
CN113053361B (zh) * 2021-03-18 2023-07-04 北京金山云网络技术有限公司 语音识别方法、模型训练方法、装置、设备及介质
CN113095370B (zh) * 2021-03-18 2023-11-03 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN113343676B (zh) * 2021-04-13 2022-12-06 山东师范大学 一种基于卷积神经网络的句子分类方法及***
CN113033153A (zh) * 2021-04-28 2021-06-25 西南石油大学 基于Transformer模型融合关键信息的神经机器翻译模型
CN113313063A (zh) * 2021-06-21 2021-08-27 暨南大学 麦穗检测方法、电子装置和存储介质
CN113378835B (zh) * 2021-06-28 2024-07-02 上饶市纯白数字科技有限公司 标注模型训练、样本标注方法及相关装置
CN113436682B (zh) * 2021-06-30 2024-05-24 平安科技(深圳)有限公司 风险人群的预测方法、装置、终端设备及存储介质
CN113409090B (zh) * 2021-07-05 2024-07-05 中国工商银行股份有限公司 广告点击率预测模型的训练方法、预测方法及装置
WO2023284088A1 (zh) 2021-07-12 2023-01-19 苏州贝克微电子股份有限公司 基于人工智能的电路设计方法与实现***
CN113553794B (zh) * 2021-07-12 2023-04-07 苏州贝克微电子股份有限公司 一种用于电路设计的人工智能实现***及方法
CN113628696B (zh) * 2021-07-19 2023-10-31 武汉大学 基于双图卷积融合模型的药物连接图分数预测方法及装置
US11979697B2 (en) 2021-07-26 2024-05-07 Chengdu Qinchuan Iot Technology Co., Ltd. Methods and internet of things systems for obtaining natural gas energy metering component
CN114740159B (zh) * 2022-04-14 2023-09-19 成都秦川物联网科技股份有限公司 一种天然气能量计量组分获取方法和物联网***
CN113642635B (zh) * 2021-08-12 2023-09-15 百度在线网络技术(北京)有限公司 模型训练方法及装置、电子设备和介质
CN113656689B (zh) * 2021-08-13 2023-07-25 北京百度网讯科技有限公司 模型生成方法和网络信息的推送方法
CN113419868B (zh) * 2021-08-23 2021-11-16 南方科技大学 基于众包的温度预测方法、装置、设备和存储介质
CN115879524A (zh) * 2021-09-27 2023-03-31 华为技术有限公司 一种模型训练方法及其相关设备
CN113868966B (zh) * 2021-12-02 2022-03-18 浙江大学 一种生物质锅炉省煤器结构参数优化设计方法
CN114418030B (zh) * 2022-01-27 2024-04-23 腾讯科技(深圳)有限公司 图像分类方法、图像分类模型的训练方法及装置
CN114513431A (zh) * 2022-02-17 2022-05-17 平安国际智慧城市科技股份有限公司 网络性能指标预测方法、装置、设备及存储介质
CN115205177A (zh) * 2022-06-22 2022-10-18 京东方科技集团股份有限公司 图像获取方法、装置、设备和非瞬态计算机存储介质
CN114818835B (zh) * 2022-06-27 2022-09-23 山东大学 基于差异特征提取及融合的旋转机械故障诊断方法及***
CN115049917B (zh) * 2022-08-17 2022-11-15 上海与光彩芯科技有限公司 神经网络的训练方法、物体检测方法和智能终端设备
CN115392365B (zh) * 2022-08-18 2024-04-26 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN116028891B (zh) * 2023-02-16 2023-07-14 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN116384593B (zh) * 2023-06-01 2023-08-18 深圳市国电科技通信有限公司 分布式光伏出力预测方法、装置、电子设备和介质
CN116562311B (zh) * 2023-07-07 2023-12-01 中铁四局集团有限公司 基于自然语言机器翻译的运维方法及***
CN116680624B (zh) * 2023-08-03 2023-10-20 国网浙江省电力有限公司宁波供电公司 一种电力***元数据的分类方法、***及存储介质
CN117808854B (zh) * 2024-02-29 2024-05-14 腾讯科技(深圳)有限公司 图像生成方法、模型训练方法、装置及电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2643434C2 (ru) * 2014-09-12 2018-02-01 Общество С Ограниченной Ответственностью "Яндекс" Способ предоставления пользователю сообщения посредством вычислительного устройства и машиночитаемый носитель информации
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
US10565318B2 (en) * 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
EP3605402B1 (en) * 2017-08-31 2022-08-31 Cambricon (Xi'an) Semiconductor Co., Ltd. Chip device and related product
CN107391501A (zh) * 2017-09-11 2017-11-24 南京大学 一种基于词预测的神经机器翻译方法
CN107633225A (zh) * 2017-09-18 2018-01-26 北京金山安全软件有限公司 一种信息获得方法及装置
CN107861938B (zh) * 2017-09-21 2020-09-25 北京三快在线科技有限公司 一种poi文案生成方法及装置,电子设备
JP7072178B2 (ja) * 2018-02-28 2022-05-20 日本電信電話株式会社 自然言語処理のための装置、方法及びプログラム
CN108416440A (zh) * 2018-03-20 2018-08-17 上海未来伙伴机器人有限公司 一种神经网络的训练方法、物体识别方法及装置
CN108681539B (zh) * 2018-05-07 2019-06-21 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN108664632B (zh) * 2018-05-15 2021-09-21 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN109344391B (zh) * 2018-08-23 2022-10-21 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110162799B (zh) * 2018-11-28 2023-08-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Ashish Vaswani, et al.,"Attention Is All You Need",arXiv:1706.03762v5,version v5,[online], arXiv (Cornell University),2017年12月06日,Pages 1-15,[令和4年4月14日検索], インターネット, <URL: https://arxiv.org/abs/1706.03762v5>.
Aurelien Geron 著,下田倫大 監訳,「scikit-learnとTensorFlowによる実践機械学習」,初版,日本,株式会社オライリー・ジャパン,2018年04月25日,第268,381~412頁,ISBN: 978-4-87311-834-5.
山下 隆義,「イラストで学ぶ ディープラーニング」,改訂第2版,日本,株式会社 講談社,2018年11月19日,第150~152頁,ISBN: 978-4-06-513331-6.
岡野原 大輔,「AI最前線 第39回 自己注意機構: Self-Attention 画像生成や機械翻訳など多くの問題で最高精度」,日経Robotics(NIKKEI Robotics),日本,日経BP社,2018年09月10日,2018年10月号(No.39),第34~35頁,ISSN: 2189-5783.
森下 睦(外2名),「階層的な部分単語を入力としたニューラル機械翻訳」,第32回(2018年度)人工知能学会全国大会論文集,セッションID:4Pin1-09,日本,[online],2018年06月05日,全4頁,[令和4年4月15日検索],インターネット,<URL: https://www.jstage.jst.go.jp/article/pjsai/JSAI2018/0/JSAI2018_4Pin109/_article/-char/ja/>,<DOI: https://doi.org/10.11517/pjsai.JSAI2018.0_4Pin109>.
渡辺 太郎,「ニューラルネットワークによる構造学習の発展」,人工知能,日本,一般社団法人 人工知能学会,2016年03月01日,Vol.31, No.2,第202~209頁,ISSN: 2188-2266.
藤田 毅,「C++で学ぶディープラーニング」,初版,日本,株式会社マイナビ出版,2017年06月25日,第220,227~231頁,ISBN: 978-4-8399-6150-3.

Also Published As

Publication number Publication date
WO2020108483A1 (zh) 2020-06-04
CN110162799B (zh) 2023-08-04
JP2021533466A (ja) 2021-12-02
US20210201147A1 (en) 2021-07-01
CN110162799A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
JP7185014B2 (ja) モデルトレーニング方法、機械翻訳方法、コンピュータ装置及びプログラム
US20210174170A1 (en) Sequence model processing method and apparatus
CN109918684B (zh) 模型训练方法、翻译方法、相关装置、设备及存储介质
KR102360659B1 (ko) 기계번역 방법, 장치, 컴퓨터 기기 및 기억매체
CN111428516B (zh) 一种信息处理的方法以及装置
CN106156807B (zh) 卷积神经网络模型的训练方法及装置
JP2021515322A (ja) 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
JP2020533696A (ja) 画像認識方法、端末及び記憶媒体
JP7324838B2 (ja) 符号化方法並びにその、装置、機器及びコンピュータプログラム
CN110069715B (zh) 一种信息推荐模型训练的方法、信息推荐的方法及装置
WO2020147369A1 (zh) 自然语言处理方法、训练方法及数据处理设备
CN110517339B (zh) 一种基于人工智能的动画形象驱动方法和装置
CN112562019A (zh) 图像色彩调整方法及装置、计算机可读介质和电子设备
CN113676226A (zh) 导频信息符号发送方法、信道估计方法及通信设备
CN106484470A (zh) 应用程序安装包的处理方法、装置及服务器
CN110188865B (zh) 信息处理方法及装置、电子设备和存储介质
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
US20230297231A1 (en) Input device comprising touchscreen, and operation method of same
EP4258165A1 (en) Two-dimensional code displaying method and apparatus, device, and medium
JP2023508062A (ja) 対話モデルの訓練方法、装置、コンピュータ機器及びプログラム
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
US11763204B2 (en) Method and apparatus for training item coding model
CN113948060A (zh) 一种网络训练方法、数据处理方法及相关设备
CN111339737A (zh) 实体链接方法、装置、设备及存储介质
CN105335434B (zh) 日志管理方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221124

R150 Certificate of patent or registration of utility model

Ref document number: 7185014

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150