JP2019512126A - 機械学習システムをトレーニングする方法及びシステム - Google Patents

機械学習システムをトレーニングする方法及びシステム Download PDF

Info

Publication number
JP2019512126A
JP2019512126A JP2018544075A JP2018544075A JP2019512126A JP 2019512126 A JP2019512126 A JP 2019512126A JP 2018544075 A JP2018544075 A JP 2018544075A JP 2018544075 A JP2018544075 A JP 2018544075A JP 2019512126 A JP2019512126 A JP 2019512126A
Authority
JP
Japan
Prior art keywords
machine learning
sample
learning system
training
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018544075A
Other languages
English (en)
Other versions
JP2019512126A5 (ja
JP6991983B2 (ja
Inventor
チョウ,ジュン
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2019512126A publication Critical patent/JP2019512126A/ja
Publication of JP2019512126A5 publication Critical patent/JP2019512126A5/ja
Application granted granted Critical
Publication of JP6991983B2 publication Critical patent/JP6991983B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Operations Research (AREA)
  • Feedback Control In General (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本出願は、機械学習システムをトレーニングする方法及びシステムを開示している。機械学習システムをトレーニングするべく、複数のサンプルデータが使用されている。方法は、複数のサンプルセットを取得することであって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、ことと、サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定することと、サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得することと、サンプリングされた複数のサンプルセットの重要性値を個々に判定することと、補正済みのサンプルデータを取得するべく、対応する重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正することと、機械学習システムをトレーニングするべく、補正済みのサンプルデータを機械学習システムに入力することと、を含む。本出願の実施形態によれば、サンプルデータは、機械学習システムに入力される前に処理されており、従って、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果への影響が、可能な限り低減されている。

Description

本出願は、2016年2月29日付けで出願されると共に「METHOD AND SYSTEM FOR TRAINING MACHINE LEARNING SYSTEM」という名称を有する中国特許出願第201610113716.1号の優先権を主張するものであり、この特許文献の内容は、引用により、そのすべてが本明細書に包含される。
技術分野
本出願は、ビッグデータ処理の分野に関し、更に詳しくは、機械学習システムをトレーニングする方法及びシステムに関する。
背景技術
現在のビッグデータ時代においては、インターネットの会社による膨大なデータの取得は、非常に容易である。不完全な統計ではあるが、Google(登録商標)は、2012年に、30億件のクエリ/300億件の広告を日々有し、Facebook(登録商標)ユーザーは、2013年に、43億個のコンテンツを日々共有しており、Alibabaは、2015年のダブルイレブン(Double Eleven)の日に、7億件超のトランザクションを有していた。これらの会社は、ユーザーの興味/振る舞い/習慣及びこれらに類似したものを含む、データ内の金を採掘するべく、機械学習システムを使用している。
機械学習システムは、ユーザーの振る舞いを予測するべく、人間の脳を模倣したニューラルネットワークとして設計されている。機械学習システムは、稼働の前に、大規模なデータを使用してトレーニングする必要がある。但し、トレーニングの際には、大規模なデータを効率的に処理するべく、大規模な機械リソースを使用しなければならない。例えば、Tencent社の広告データは、一般に、PBレベルのものであり、且つ、1000個超の機械を使用しなければならず、これは、大部分の会社にとって巨大な費用である。
一般的な処理方式は、費用を低減すると共に機械学習システムの効率を改善するべく、ランダムサンプリングにより、機械学習システムによって処理されるデータ量を低減する、というものである。ランダムサンプリングとは、特定の確率においてサンプルを破棄することを意味している。例えば、0〜1の範囲の浮動小数点数が、それぞれのサンプルごとに生成され、サンプルは、その浮動小数点数が閾値を上回っている際に、直接的に破棄される。但し、サンプルをランダムに破棄する方式は、大量の有用なデータを破棄することになり、その結果、機械学習システムのトレーニング効果が損なわれ、且つ、予測精度も低減される。
発明の概要
上述の問題点に鑑み、本出願の実施形態は、上述の問題に対処しうる、或いは、上述の問題を少なくとも部分的に解決しうる、機械学習システムをトレーニングする方法及びシステムを提供するべく、提案されている。
上述の問題点を解決するべく、本出願の一実施形態は、機械学習システムをトレーニングする方法を開示し、この場合に、機械学習システムをトレーニングするべく、複数のサンプルデータ(multiple pieces of sample data)が使用されており、且つ、トレーニング方法は、
複数のサンプルセットを取得することであって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、ことと、
サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルに対応するサンプリングレートを設定することと、
サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得することと、
サンプリングされた複数のサンプルセットの重要性値を個々に判定することと、
補正済みのサンプルデータを取得するべく、重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのすべてを補正することと、
機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれを機械学習システムに入力することと、
を含む。
本出願の別の実施形態は、機械学習システムをトレーニングするシステムを開示し、この場合に、機械学習システムをトレーニングするべく、複数のサンプルデータが使用されており、且つ、トレーニングシステムは、
複数のサンプルセットを取得するように構成された第1取得モジュールであって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、第1取得モジュールと、
サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定するように構成されたサンプリングレート設定モジュールと、
サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得するように構成された第2取得モジュールと、
サンプリングされた複数のサンプルセットの重要性値を個々に設定するように構成された重要性値判定モジュールと、
補正済みのンプルデータを取得するべく、対応する重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正するように構成されたサンプルデータ補正モジュールと、
機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれを機械学習システムに入力するように構成されたトレーニングモジュールと、
を含む。
本出願の実施形態は、本出願の実施形態が、サンプリング期間に従って分割されたサンプルセットを取得することと、サンプリング期間に従ってそれぞれのサンプルセットのサンプリングレートを設定することと、サンプリングレートに従ってサンプリングを実施することと、サンプリングされたサンプルセットの重要性値を判定することと、重要性値を使用することにより、サンプルデータを補正することと、トレーニングのためにサンプルデータを機械学習システムに入力することと、を含む、機械学習システムをトレーニングする方法及びシステムを開示しており、この場合に、サンプルデータは、機械学習システムに入力される前に、処理されている、という利点を少なくとも有する。機械学習システムによって処理されるデータ量が低減される一方で、重要なデータの採用レート及び利用程度が保証され、且つ、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果への影響が、可能な限り低減されている。
図1は、本出願の第1実施形態による機械学習システムをトレーニングする方法のフローチャートである。 図2は、本出願の第2実施形態による機械学習システムをトレーニングする方法のフローチャートである。 図3は、本出願の第3実施形態による機械学習システムをトレーニングする方法のフローチャートである。 図4は、本出願の第4実施形態による機械学習システムをトレーニングするシステムのブロック図である。 図5は、本出願の第5実施形態による機械学習システムをトレーニングするシステムのブロック図である。 図6は、本出願の第6実施形態による機械学習システムをトレーニングするシステムのブロック図である。
詳細な説明
以下、本出願の実施形態における添付図面を通じて、本出願の実施形態における技術的解決策について、明瞭且つ十分に説明することとする。記述されている実施形態は、本出願の実施形態の、すべてではなく、一部分であるに過ぎないことが明らかである。本出願の実施形態に基づいて当業者によって案出されるすべてのその他の実施形態は、本出願の保護範囲に含まれる。
本出願の核心概念の1つは、機械学習システムをトレーニングする方法及びシステムを提案することにある。機械学習システムをトレーニングするべく、複数のサンプルデータが使用されている。方法は、サンプルデータのサンプリング期間に従ってサンプルデータを複数のサンプルセットに分割することと、サンプリング期間に従って、それぞれのサンプルセットごとにサンプリングレートを設定することと、サンプリングレートに従ってそれぞれのサンプルセットをサンプリングし、それぞれのサンプリングされたサンプルセットに対応する重要性値を変更することと、重要性値を使用することにより、サンプルデータのそれぞれを補正し、機械学習システムをトレーニングするべく、補正済みのサンプルデータを機械学習システムに入力することと、を含む。
第1実施形態
本出願の第1実施形態は、機械学習システムをトレーニングする方法を提供している。図1は、本出願の第1実施形態による機械学習システムをトレーニングする方法のフローチャートを示している。この実施形態において提供される機械学習システムをトレーニングする方法は、以下のステップを含む。
S101:複数のサンプルセットが取得され、この場合に、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む。
このステップにおいては、サンプルデータのそれぞれは、例えば、ベクトルであり、且つ、ベクトルの1つの次元は、例えば、サンプルデータのサンプリング時間である。このステップにおいては、すべてのサンプルデータのサンプリング時間が複数のサンプリング期間に分割され、且つ、それぞれのサンプルセットがサンプリング期間に対応している状態において、複数のサンプルデータが、サンプリング期間に従って複数のサンプルセットに分割されている。
例えば、すべてのサンプルデータのサンプリング時間が1月24日〜1月29日であり、従って、サンプリング時間は、例えば、1月29日、1月27日〜1月28日、及び1月24日〜1月26日を含む3つのサンプリング期間などの、複数のサンプリング期間に分割されてもよい。上述の3つのサンプリング期間の場合には、サンプルデータは、1月29日においてサンプリングされたサンプルセット、1月27日〜1月28日においてサンプリングされたサンプルデータセット、及び1月24日〜1月26日においてサンプリングされたサンプルセットに分割される。従って、それぞれのサンプルセットが1つのサンプリング期間に対応している。
サンプリング期間は、開発者又はユーザーによって設定された規則に従って分割されうると共に、均一又は不均一に分散していてもよく、これは、本出願においては、制限されていないことに留意されたい。
S102:サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートが設定される。
このステップにおいては、サンプリング期間に従って、それぞれの対応するサンプルセットのサンプリングレートを設定することができる。例えば、サンプリングレートは、相対的に新しいサンプリング期間を有するサンプルセットが、相対的に大きなサンプリングレートに対応する、という原理に従って、設定されてもよい。即ち、サンプルセットのサンプリングレートは、サンプルセットに対応する相対的に後のサンプリング期間において、相対的に大きい。例えば、上述の例においては、1月29日においてサンプリングされたサンプルデータに対応するサンプルセットのサンプリングレートは、1.0であってもよく、1月27日〜1月28日においてサンプリングされたサンプルデータに対応するサンプルセットのサンプリングレートは、0.5に設定されてもよく、且つ、1月24日〜1月26日においてサンプリングされたサンプルデータに対応するサンプルセットのサンプリングレートは、0.1に設定されてもよい。
S103:サンプリングレートに従ってサンプリングされた複数のサンプルセットが取得される。
このステップにおいては、上述のステップにおいて設定されたサンプリングレートに従って、それぞれのサンプルセット内のサンプルをサンプリングすることができる。例えば、サンプルセットは、1000個のサンプルデータを含み、且つ、サンプリングレートは、0.1である。この結果、サンプリングされたサンプルセット内に含まれているサンリングデータの数は、1000×0.1=100個である。サンプリングの後に、サンプルセット内には、100個のサンプルデータが存在しており、従って、この100個のサンプルデータに対応するセットは、サンプリングされたサンプルセットと呼称することができる。
S104:サンプリングされた複数のサンプルセットの重要性値が個々に判定される。
一実施形態においては、重要性値は、手作業により、或いは、機械アルゴリズムにより、設定された係数であってもよい。それぞれのサンプリングされたサンプルセットに対応する重要性値は、特定の規則に従って、手作業により、或いは、機械により、設定されてもよい。上述のステップにおいては、新しい重要性値は、サンプルセットのオリジナルの重要性値に基づいて設定することができる。
S105:補正済みのサンプルデータを取得するべく、重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれが補正される。
このステップにおいては、補正済みのサンプルデータを取得するべく、重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正することができる。
重要性値を使用したサンプルデータのそれぞれの補正は、補正済みのサンプルデータを取得するべくベクトルが比例方式で拡大するような、ベクトルのそれぞれの特徴次元に、重要性値を乗算することであってもよい。
例えば、サンプルセットのオリジナルの又は既定の重要性値は、1であり、このステップにおいて、2に補正することができる。従って、元々(1,1,1,2,... ..n)であるサンプルデータは、このステップにおいて、(2,2,2,4,... ..2n)に、即ち、補正済みのサンプルデータに、補正することができる。
但し、当業者には理解されうるように、重要性値は、手作業により、或いは、機械アルゴリズムを使用することにより、設定される係数に限定されるものではない。その他の実施形態においては、サンプルを補正するための様々な方法が存在しうる。例えば、a(,1,1,2,... ..n)、a1=f(a)、及びこれらに類似したものなどの、数学的演算をサンプルデータに対して実行することができる。この場合に、関数fは、幾何学的乗算関数や指数計算のようなものなどの、様々な数学関数であってもよい。
S106:機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれが機械学習システムに入力される。
このステップにおいては、機械学習システムをトレーニングするべく、補正済みのサンプルデータを機械学習システムに入力することができる。トレーニングにおいては、勾配を算出するべく、まず、損失関数の導関数が取得され、最適解に近接した重みが、「新しい重み=古い重み+ステップ長×勾配」という式に従って、初期重み及び設定されたステップ長との組合せにおいて、反復を通じて、算出されてもよい。
要すると、本出願の第1実施形態は、機械学習システムをトレーニングする方法を開示し、サンプルデータが、機械学習システムに入力される前に、処理されており、データ量が低減される一方で、重要なデータの採用レート及び利用程度が保証されており、従って、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果への影響が、可能な限り低減されている。
第2実施形態
本出願の第2実施形態は、機械学習システムをトレーニングする方法を提供している。図2は、本出願の第2実施形態による機械学習システムをトレーニングする方法のフローチャートである。本実施形態において提供されている機械学習システムをトレーニングする方法は、以下のステップを含む。
S201:複数のサンプルセットが取得され、この場合に、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む。
S202:サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートが設定される。
S203:サンプリングレートに従ってサンプリングされた複数のサンプルセットが取得される。
上述の3つのステップは、第1実施形態におけるステップS101、S102、及びS103と同一であるか又はこれらに類似しており、従って、ここでの詳細な説明は、省略する。
S204:サンプリングされた複数のサンプルセットの重要性値が個々に判定される。
例えば、ステップS204は、以下を含みうる。
サブステップS204a:サンプリングされたサンプルセットの重要性値を取得するべく、サンプリングされたサンプルセットの初期重要性値が、対応するサンプリングレートに基づいて補正され、
この場合に、重要性値は、初期重要性値に正比例しており、且つ、サンプリングされたサンプルセットのサンプリングレートには反比例している。
サブステップS204aにおいては、例えば、新しい重要性値が、サンプルセットのオリジナルの対応する重要性値の、サンプリングレートに対する比率に基づいて算出されてもよい。例えば、それぞれのサンプルセットの重要性値は、まず、以下の式に従って設定されてもよく、
Y1=Y/a
この場合に、Y1は、サンプルセットに対応する設定された重要性値であり、
Yは、サンプルセットに対応するオリジナルの重要性値であり、且つ、
aは、サンプルセットのサンプリングレートである。
例えば、第1実施形態において提供されている例においては、1月24日〜1月26日のサンプリング期間のサンプリングレートが0.1であり、且つ、このセットに対応する重要性値が、0.2に設定され、1月29日のサンプリング期間のサンプリングレートが0.5であり、且つ、このセットに対応する重要性値が、1に設定され、且つ、1月27日〜1月28日のサンプリング期間のサンプリングレートが1であり、且つ、このセットに対応する重要性値が、5に設定されている場合には、Y1=Y/aに従って、サンプリング期間に従って構成される3つの組の重要性値は、日付順に、それぞれ、2、2、及び5であるものとして取得することができる。
例えば、ステップS204は、以下を更に含みうる。
サブステップS204b:予め設定された規則に従って、最新のサンプリング期間に対応するサンプルセットの重要性値を増大させる。
サブステップS204bにおいて、例えば、予め設定された規則は、
増大の後の最新のサンプリング期間に対応するサンプルセットの重要性値が、増大の前の最新のサンプリング期間に対応するサンプルセットの重要性値に正比例しており、且つ、サンプルセットの合計数に正比例している、
というものを含みうる。
このサブステップにおいて、例えば、最新のサンプリング期間に対応するサンプルセットの重要性値は、以下の式に従ってリセットされてもよく、
Z1=Z×b
この場合に、Z1は、サンプルセットに対応する再度変更された重要性値であり、
Zは、サンプルセットに対応する最初に変更された重要性値であり、且つ、
bは、サンプルセットの合計数である。
例えば、ステップS204bに従って、サンプリング期間に従って構成される3つのセットの重要性値は、日付順に、それぞれ、2、2、及び5であるものとして取得することができる。このステップにおいては、最新のサンプリング期間を有するサンプリングされたサンプルセット、即ち、第3サンプルセット、の重要性値を更に増大させることができる。
例えば、最新のサンプリング期間に対応するサンプルセットの重要性値は、以下の式に従ってリセットされてもよく、
Z1=Z×b
この場合に、Z1は、サンプルセットに対応するリセットされた重要性値であり、
Zは、サンプルセットに対応する最初に設定された重要性値であり、且つ、
bは、サンプルセットの合計数である。
例えば、サブステップS204aにおいて取得された最新のサンプリング期間を有するサンプルセットに対応する最初に設定された重要性値は、5である。このサブステップにおいては、式Z1=Z×bに従って、リセットされた重要性値である5×3=15を取得することができる。
サブステップS204bは、サブステップS204aの前又は後に実行されてもよく、或いは、別個に実行されてもよいことに留意されたい。即ち、サブステップS204bは、サブステップS204aとは分離されており、且つ、サブステップS204aとは独立している。
S205:補正済みのサンプルデータを取得するべく、重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれが補正される。
例えば、このステップは、以下のサブステップを含みうる。
S205a:補正済みのサンプルデータを取得するべく、重要性値のそれぞれは、対応するサンプリングされたサンプルセット内のサンプルデータのそれぞれによりを乗算される。
S206:機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれが機械学習システムに入力される。
このステップは、第1実施形態におけるステップS106と同一であるか又はこれに類似しうるものであり、従って、ここでの詳細な説明は、省略する。
要すると、本出願の第2実施形態は、機械学習システムをトレーニングする方法を開示しており、サンプルデータが、機械学習システムに入力される前に、処理され、且つ、異なるサンプルセットの重要性値が設定されている。従って、データ量が低減される一方で、重要なデータの採用レート及び利用程度が保証されており、且つ、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果に対する影響が、可能な限り低減されている。
第3実施形態
本出願の第3実施形態は、機械学習システムをトレーニングする方法を提供している。図3は、本出願の第3実施形態による機械学習システムをトレーニングする方法のフローチャートを示している。この実施形態において提供されている機械学習システムをトレーニングする方法は、以下のステップを含む。
S301:複数のサンプルセットが取得され、この場合に、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む。
S302:サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートが設定される。
S303:サンプリングレートに従ってサンプリングされた複数のサンプルセットが取得される。
S304:サンプリングされた複数のサンプルセットの重要性値が個々に判定される。
S305:補正済みのサンプルデータを取得するべく、重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれが補正される。
上述のステップS301〜S305は、第1実施形態のステップS101〜S105と同一であるか又はこれらに類似しうるものであり、或いは、第2実施形態のステップS201〜S205と同一であるか又はこれらに類似しうるものであり、従って、ここでの詳細な説明は、省略する。
この実施形態は、以下のステップを更に含みうる。
S306:機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれが機械学習システムに入力される。
このステップにおいては、機械学習システムをトレーニングするべく、補正済みのサンプルデータを機械学習システムに入力することができる。トレーニングの際には、勾配を算出するべく、損失関数の導関数が取得され、且つ、「新しい重み=古い重み+ステップ長×勾配」という式に従って、初期重み及び設定されたステップ長との組合せにおいて、反復を通じて、最適解に近接した重みが算出されてもよい。
このステップは、以下のサブステップを含みうる。
S306a:補正済みのサンプルデータのそれぞれの勾配が算出される。
S306b:サンプルデータのそれぞれの勾配の精度が低減される。
S306c:機械モデルをトレーニングするべく、精度が低減された勾配が機械学習システムに入力される。
ステップS306aにおいては、まず、補正済みのサンプルデータのそれぞれの勾配を算出することができる。勾配は、損失関数の導関数であってもよく、勾配は、損失関数の導関数を取得することにより、取得することができる。
ステップS306bにおいては、機械学習システムは、一般に、勾配降下法を使用することにより、トレーニングされ、それぞれの機械の勾配を算出する必要がある。1つの勾配を保存するべく、8バイトが必要とされる場合には、100億個の勾配を保存するべく、10000000000×8/1024/1024/1024=74.5Gのストレージ空間が必要とされる。1つの勾配を保存するためのバイトの数が、4バイトに圧縮される場合には、100億個の勾配を保存するべく必要とされるメモリは、32.25Gのみである。
ステップS306bにおいては、以下の式を使用して精度を低減することにより、サンプルデータのそれぞれの勾配のストレージバイトが低減されてもよく、
X1=floor(c×X+(rand())/d)/c
ここで、floorは、切り捨てであり、rand()は、0〜dの浮動小数点数を生成するためのものであり、X1は、低精度浮動小数点数であって、例えば、コンピュータストレージは、4バイトの浮動小数点数を必要とし、この場合に、これは、低減後のサンプルデータのそれぞれの勾配のストレージバイトを示し、Xは、高精度浮動小数点数であって、例えば、コンピュータストレージは、8バイトの高精度浮動小数点数を必要とし、これは、低減前のサンプルデータのそれぞれの勾配のストレージバイトである。
これに加えて、rand関数は、ランダムファクタを導入して浮動小数点数の累積誤差を可能な限り低減するべく、使用されている。例えば、(c×X+(rand())/d)というアルゴリズムが利用され、ここで、ランダムファクタを導入するべく、Xは、固定数によって乗算され、且つ、0〜1の範囲の浮動小数点数によって加算されている。Cの値は、536870912などの経験上の値である。Dは、例えば、232−1、即ち、2147483647であってもよく、これは、rand関数によって生成されうる上限である。
上述の式を使用することにより、高精度浮動小数点数を低精度浮動小数点数に変換することができると共に、累積誤差を可能な限り低減することができる。
要すると、本出願の第3実施形態は、機械学習システムをトレーニングする方法を開示しており、サンプルデータは、機械学習システムに入力される前に、処理され、異なるサンプルセットの重要性値が設定され、且つ、勾配の精度が低減されている。従って、データ量が低減される一方で、重要なデータの採用レート及び利用程度が保証されており、且つ、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果への影響が、可能な限り低減されている。
第4実施形態
本出願の第4実施形態は、機械学習システムをトレーニングするシステムを提供している。図4は、本出願の第4実施形態による機械学習システムをトレーニングするシステムのブロック図を示している。この実施形態において提供されている機械学習システムをトレーニングするシステムは、複数のサンプルデータを使用することにより、機械学習システムをトレーニングしており、且つ、トレーニングシステム400は、
複数のサンプルセットを取得するように構成された第1取得モジュール401であって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、第1取得モジュールと、
サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定するように構成されたサンプリングレート設定モジュール402と、
サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得するように構成された第2取得モジュール403と、
サンプリングされた複数のサンプルセットの重要性値を個々に設定するように構成された重要性値判定モジュール404と、
補正済みのサンプルデータを取得するべく、対応する重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正するように構成されたサンプルデータ補正モジュール405と、
機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれを機械学習システムに入力するように構成されたトレーニングモジュール406と、
を含む。
好ましくは、この実施形態においては、サンプルセットのサンプリングレートは、そのサンプルセットに対応する後のサンプリング期間において、相対的に大きい。
要すると、本出願の第4実施形態は、機械学習システムをトレーニングするシステムを開示し、サンプルデータは、機械学習システムに入力される前に、処理されており、データ量が低減される一方で、重要なデータの採用レート及び利用程度が保証されており、従って、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果に対する影響が、可能な限り低減されている。
第5実施形態
本出願の第5実施形態は、機械学習システムをトレーニングするシステムを提供している。図5は、本出願の第5実施形態による機械学習システムをトレーニングするシステムのブロック図を示している。本実施形態において提供されている機械学習システムをトレーニングするシステムは、複数のサンプルデータを使用することにより、機械学習システムをトレーニングしており、且つ、トレーニングシステム500は、
複数のサンプルセットを取得するように構成された第1取得モジュール501であって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、第1取得モジュールと、
サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定するように構成されたサンプリングレート設定モジュール502と、
サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得するように構成された第2取得モジュール503と、
サンプリングされた複数のサンプルセットの重要性値を個々に設定するように構成された重要性値判定モジュール504と、
補正済みのサンプルデータを取得するべく、対応する重要性値を使用することにより、サンプリングされたサ複数のンプルセット内のサンプルデータのそれぞれを補正するように構成されたサンプルデータ補正モジュール505と、
機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれを機械学習システムに入力するように構成されたトレーニングモジュール506と、
を含む。
この実施形態においては、サンプルデータ補正モジュール505は、
補正済みのサンプルデータを取得するべく、重要性値のそれぞれを、対応するサンプリングされたサンプルセット内のサンプルデータのそれぞれにより乗算する、
ように構成されている。
この実施形態においては、重要性値判定モジュール504は、
サンプリングされたサンプルセットの重要性値を取得するべく、対応するサンプリングレートに基づいてサンプリングされたサンプルセットの初期重要性値を補正するように構成されたプライマリ補正サブモジュール504a、
を含み、
この場合に、重要性値は、初期重要性値に正比例し、且つ、サンプリングされたサンプルセットのサンプリングレートには反比例している。
例えば、プライマリ補正サブモジュールは、まず、以下の式に従ってそれぞれのサンプルセットの重要性値を設定してもよく、
Y1=Y/a
ここで、Y1は、サンプルセットに対応するように設定された重要性値であり、
Yは、サンプルセットに対応するように設定されたオリジナルの重要性値であり、且つ、
aは、サンプルセットのサンプリングレートである。
この実施形態においては、重要性値判定モジュール504は、
予め設定された規則に従って最新のサンプリング期間に対応するサンプルセットの重要性値を増大させるように構成されたセカンダリ補正サブモジュール504b、
を更に含みうる。
好ましくは、予め設定された規則は、
増大の後の最新のサンプリング期間に対応するサンプルセットの重要性値が、増大の前の最新のサンプリング期間に対応するサンプルセットの重要性値に正比例しており、且つ、サンプルセットの合計数に正比例している、
というものを含む。
例えば、最新のサンプリング期間に対応するサンプルセットの重要性値は、次式に従ってリセットされてもよく、
Z1=Z×b
ここで、Z1は、サンプルセットに対応するリセットされた重要性値セットであり、
Zは、サンプルセットに対応する最初に設定された重要性値であり、且つ、
bは、サンプルセットの合計数である。
この実施形態においては、サンプルセットのサンプリングレートは、そのサンプルセットに対応する後のサンプリング期間において、相対的に大きい。
要すると、本出願の第5実施形態は、機械学習システムをトレーニングするシステムを開示しており、サンプルデータは、機械学習システムに入力される前に、処理され、且つ、異なるサンプルセットの重要性値が設定されている。従って、データ量が低減される一方で、重要なデータの採用レート及び利用程度が保証されており、且つ、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果への影響が、可能な限り低減されている。
第6実施形態
本出願の第6実施形態は、機械学習システムをトレーニングするシステムを提供している。図6は、本出願の第6実施形態による機械学習システムをトレーニングするシステムのブロック図を示している。この実施形態において提供されている機械学習システムをトレーニングするシステムは、複数のサンプルデータを使用することにより、機械学習システムをトレーニングしており、且つ、トレーニングシステム600は、
複数のサンプルセットを取得するように構成された第1取得モジュール601であって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、第1取得モジュールと、
サンプルセットの対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定するように構成されたサンプリングレート設定モジュール602と、
サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得するように構成された第2取得モジュール603と、
サンプリングされた複数のサンプルセットの重要性値を個々に設定するように構成された重要性値判定モジュール604と、
補正済みのサンプルデータを取得するべく、対応する重要性値を使用することにより、サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正するように構成されたサンプルデータ補正モジュール605と、
機械学習システムをトレーニングするべく、補正済みのサンプルデータのそれぞれを機械学習システムに入力するように構成されたトレーニングモジュール606と、
を含む。
この実施形態においては、トレーニングモジュール606は、
補正済みのサンプルデータのそれぞれの勾配を算出するように構成された計算サブモジュール606aと、
それぞれの勾配の精度を低減するように構成された精度低減サブモジュール606bと、
機械モデルをトレーニングするべく、精度が低減された勾配を機械学習システムに入力するように構成されたトレーニングサブモジュール606cと、
を含む。
この実施形態においては、精度低減サブモジュール606bは、
精度を低減するべく、以下の式を使用することにより、それぞれの勾配のストレージバイトを低減するように構成されており、
X1=floor(c×X+(rand())/d)/c
この場合に、floorは、切り捨てであり、rand()は、0〜dの浮動小数点数を生成するためのものであり、X1は、低減後のストレージバイトの数であり、且つ、Xは、低減前のストレージバイトの数である。
要すると、本出願の第6実施形態は、機械学習システムをトレーニングするシステムを開示し、サンプルデータは、機械学習システムに入力される前に、処理され、異なるサンプルセットの重要性値が設定され、且つ、勾配の精度が低減されている。従って、データ量が低減される一方で、重要なデータの採用レート及び利用程度が保証されており、且つ、機械のメモリリソースに対する要求が軽減される一方で、機械学習システムの学習効果への影響が、可能な限り低減されている。
装置実施形態は、基本的に、方法実施形態に類似しており、その結果、これらは、簡潔に記述されており、従って、関係する部分については、方法実施形態の部分の説明を参照することができる。
本明細書の実施形態は、いずれも、漸進的な方式によって記述され、それぞれの実施形態は、その他の実施形態との関係における差を強調しており、従って、実施形態における同一の又は類似した部分は、相互に参照することにより、取得することができる。
当業者は、本出願の実施形態における実施形態は、方法、装置、又はコンピュータプログラムプロダクトとして提供されうることを理解するであろう。従って、本出願の実施形態は、完全なハードウェア実施形態、完全なソフトウェア実施形態、或いは、ソフトウェアとハードウェアを組み合わせた実施形態として、実装することができる。更には、本出願の実施形態は、コンピュータ使用可能プログラムコードを含む(限定を伴うことなしに磁気ディスクメモリ、CD−ROM、光メモリ、及びこれらに類似したものを含む)1つ又は複数のコンピュータ使用可能ストレージ媒体上において実装されたコンピュータプログラムプロダクトであってもよい。
通常の構成においては、コンピュータ装置は、1つ又は複数のプロセッサ(CPU)と、入出力インターフェイスと、ネットワークインターフェイスと、メモリと、を含む。メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM:Random Access Memory)、及び/又は、例えば、読み出し専用メモリ(ROM:Read Only Memory)又はフラッシュRAMなどの、不揮発性メモリ、或いは、これらに類似したものをコンピュータ可読媒体内において含みうる。メモリは、コンピュータ可読媒体の一例である。コンピュータ可読媒体は、不揮発性及び揮発性媒体のみならず、着脱自在及び非着脱自在の媒体を含み、且つ、任意の方法又は技術により、情報ストレージを実装することができる。信号は、コンピュータ可読命令、データ構造、及びプログラム又はその他のデータのモジュールであってもよい。コンピュータのストレージ媒体は、限定を伴うことなしに、例えば、相変化メモリ(PRAM:Phase Change Memory)、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、その他のタイプのRAM、ROM、電気的に消去可能なプログラム可能な読み出し専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、フラッシュメモリ又はその他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM:Compact Disk Read Only Memory)、デジタルバーサタイルディスク(DVD:Digital Versatile Disc)又はその他の光ストレージ、カセットテープ、磁気テープ/磁気ディスクストレージ又はその他の磁気ストレージ装置、或いは、任意のその他の非送信媒体を含み、且つ、演算装置からアクセス可能である信号を保存するべく使用することができる。本明細書における定義によれば、コンピュータ可読媒体は、変調されたデータ信号及び搬送波などの、一時的な媒体を含んではいない。
本出願の実施形態は、本出願の実施形態による方法、端末装置(システム)、及びコンピュータプログラムプロダクトのフローチャート及び/又はブロック図を参照して記述されている。フローチャート及び/又はブロック図のそれぞれのプロセス及び/又はブロック、並びに、フローチャート及び/又はブロック図のプロセス及び/又はブロックの組合せ、を実装するべく、コンピュータプログラム命令を使用しうることを理解されたい。コンピュータプログラム命令は、コンピュータ又は別のプログラム可能なデータ処理端末装置のプロセッサが、命令を実行して、フローチャートの1つ又は複数のプロセス及び/又はブロック図の1つ又は複数のブロックに表記されている機能を実装するように構成された装置を生成するように、機械を生成するべく、汎用コンピュータ、専用コンピュータ、組込み型のプロセッサ、又は別のプログラム可能なデータ処理端末装置に提供されてもよい。
又、コンピュータプログラム命令は、コンピュータ可読ストレージ媒体内において保存されている命令が、命令装置を含む製造物品を生成するように、且つ、命令装置が、フローチャートの1つ又は複数のプロセス及び/又はブロック図の1つ又は複数のブロックによって表記されている機能を実装するように、特定の方式によって機能するようにコンピュータ又は別のプログラム可能なデータ処理端末装置をガイドする能力を有するコンピュータ可読ストレージ内に保存されてもよい。
又、コンピュータプログラム命令は、一連の動作ステップが、コンピュータ実装された処理を生成するべく、コンピュータ又は別のプログラム可能な端末装置上において実行されるように、コンピュータ又は別のプログラム可能なデータ処理端末装置に読み込まれてもよい。従って、コンピュータ又は別のプログラム可能な端末装置において実行された命令は、フローチャートの1つ又な複数のプロセス及び/又はブロック図の1つ又は複数のブロックにおいて表記されている機能を実装するステップを提供する。
以上、本出願の実施形態の好適な実施形態について説明したが、基本的な創造的概念を知ることにより、当業者は、その他の変形及び変更を実施形態に対して実施することができる。従って、添付の請求項は、本出願の実施形態の範囲に含まれる好適な実施形態及びすべての変形及び変更を含むものと解釈されることを意図している。
最後に、「第1の(first)」及び「第2の(second)」などの、本明細書における関係用語は、1つのエンティティ又は動作を別のエンティティ又は動作から弁別するべく使用されているものに過ぎず、且つ、エンティティ又は動作が、この実際の関係又は順序を有することを必要としてはおらず、或いは、これを意味してもいないことに更に留意されたい。更には、「含む(include)」や「有する(comprise)」という用語、或いは、これらのその他の変形は、一連の要素を含むプロセス、方法、物品、又は端末装置が、それらの要素を含むのみならず、明示的に列挙されてはいないその他の要素をも含むように、或いは、プロセス、方法、物品、又は端末装置の固有の要素を更に含むように、非排他的包含をカバーすることを意図している。更なる制限が存在していない場合には、「1つの〜を含む(including a(n)...)」によって定義される要素は、その要素を含むプロセス、方法、物品、又は端末装置が、その他の同一の要素を更に有することを排除するものではない。
以上、本明細書においては、本出願において提供されている紛らわしいスクリプト言語用の位置決め方法及びシステムについて詳細に説明すると共に、特定の例を適用することにより、本出願の原理及び実装方式について説明した。実施形態に関する上述の説明は、本出願の方法及びその核心概念の理解を支援するべく使用されるものに過ぎない。その一方において、当業者には、本出願の概念に従って、特定の実装方式及び適用範囲に対する変更が存在しうる。従って、本明細書の内容は、本出願を限定するものとして解釈してはならない。

Claims (16)

  1. 機械学習システムをトレーニングする方法であって、前記機械学習システムをトレーニングするべく、複数のサンプルデータが使用される、方法において、
    複数のサンプルセットを取得することであって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、ことと、
    前記サンプルセットの前記対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定することと、
    前記サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得することと、
    前記サンプリングされた複数のサンプルセットの重要性値を個々に判定することと、
    補正済みのサンプルデータを取得するべく、対応する重要性値を使用することにより、前記サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正することと、
    前記機械学習システムをトレーニングするべく、前記補正済みのサンプルデータのそれぞれを前記機械学習システムに入力することと、
    を含む方法。
  2. 補正済みのサンプルデータを取得するべく、対応する重要性値を使用することにより、前記サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正するステップは、
    補正済みのサンプルデータを取得するべく、前記重要性値のそれぞれに、対応する前記サンプリングされたサンプルセット内のサンプルデータのそれぞれを乗算すること、
    を含む請求項1に記載の機械学習システムをトレーニングする方法。
  3. 前記機械学習システムをトレーニングするべく、前記補正済みのサンプルデータのそれぞれを前記機械学習システムに入力するステップは、
    前記補正済みのサンプルデータのそれぞれの勾配を算出することと、
    前記それぞれの勾配の精度を低減することと、
    前記機械モデルをトレーニングするべく、精度が低減された前記勾配を前記機械学習システムに入力することと、
    を含む請求項1に記載の機械学習システムをトレーニングする方法。
  4. 前記それぞれの勾配の前記精度を低減するステップは、
    前記精度を低減するべく、以下の式を使用することにより、それぞれの勾配のストレージバイトを低減することを含み、
    X1=floor(c×X+(rand())/d)/c
    ここで、floorは、切り捨てであり、rand()は、0〜dの浮動小数点数を生成するためのものであり、X1は、低減後のストレージバイトの数であり、且つ、Xは、低減前のストレージバイトの数である請求項3に記載の機械学習システムをトレーニングする方法。
  5. 前記サンプリングされた複数のサンプルセットの重要性値を個々に判定するステップは、
    前記サンプリングされたサンプルセットの前記重要性値を取得するべく、対応するサンプリングレートに基づいて前記サンプリングされたサンプルセットの初期重要性値を補正することを含み、
    前記重要性値は、前記初期重要性値に正比例しており、且つ、前記サンプリングされたサンプルセットの前記サンプリングレートには反比例している請求項1に記載の機械学習システムをトレーニングする方法。
  6. 前記サンプリングされた複数のサンプルセットの重要性値を個々に設定するステップは、
    予め設定された規則に従って、最新のサンプリング期間に対応する前記サンプルセットの前記重要性値を増大させること、
    を更に含む請求項5に記載の機械学習システムをトレーニングする方法。
  7. 前記予め設定された規則は、
    増大の後の前記最新のサンプリング期間に対応する前記サンプルセットの前記重要性値が、増大の前の前記最新のサンプリング期間に対応する前記サンプルセットの前記重要性値に正比例しており、且つ、前記サンプルセットの合計数に正比例していること、
    を含む請求項6に記載の機械学習システムをトレーニングする方法。
  8. 前記サンプルセットの前記対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定するステップにおいて、サンプルセットの前記サンプリングレートは、前記サンプルセットに対応する後のサンプリング期間において、相対的に大きい請求項1に記載の機械学習システムをトレーニングする方法。
  9. 機械学習システムをトレーニングするシステムであって、前記機械学習システムをトレーニングするべく、複数のサンプルデータが使用される、システムにおいて
    複数のサンプルセットを取得するように構成された第1取得モジュールであって、それぞれのサンプルセットは、対応するサンプリング期間内のサンプルデータを含む、第1取得モジュールと、
    前記サンプルセットの前記対応するサンプリング期間に従って、それぞれのサンプルセットに対応するサンプリングレートを設定するように構成されたサンプリングレート設定モジュールと、
    前記サンプリングレートに従ってサンプリングされた複数のサンプルセットを取得するように構成された第2取得モジュールと、
    前記サンプリングされた複数のサンプルセットの重要性値を個々に設定するように構成された重要性値判定モジュールと、
    補正済みのサンプルデータを取得するべく、対応する重要性値を使用することにより、前記サンプリングされた複数のサンプルセット内のサンプルデータのそれぞれを補正するように構成されたサンプルデータ補正モジュールと、
    前記機械学習システムをトレーニングするべく、前記補正済みのサンプルデータのそれぞれを前記機械学習システムに入力するように構成されたトレーニングモジュールと、
    を備えるシステム。
  10. 前記サンプルデータ補正モジュールは、
    補正済みのサンプルデータを取得するべく、前記重要性値のそれぞれに、前記対応するサンプリングされたサンプルセット内のサンプルデータのそれぞれを乗算する、
    ように構成されている請求項9に記載の機械学習システムをトレーニングするシステム。
  11. 前記トレーニングモジュールは、
    前記補正済みのサンプルデータのそれぞれの勾配を算出するように構成された計算サブモジュールと、
    前記それぞれの勾配の精度を低減するように構成された精度低減サブモジュールと、
    前記機械モデルをトレーニングするべく、精度が低減された前記勾配を前記機械学習システムに入力するように構成されたトレーニングサブモジュールと、
    を含む請求項9に記載の機械学習システムをトレーニングするシステム。
  12. 前記精度低減サブモジュールは、
    前記精度を低減するべく、以下の式を使用することにより、それぞれの勾配のストレージバイトを低減するように構成されており、
    X1=floor(c×X+(rand())/d)/c
    floorは、切り捨てであり、rand()は、0〜dの浮動小数点数を生成するためのものであり、X1は、低減後のストレージバイトの数であり、且つ、Xは、低減前のストレージバイトの数である請求項11に記載の機械学習システムをトレーニングするシステム。
  13. 前記重要性値判定モジュールは、
    前記サンプリングされたサンプルセットの前記重要性値を取得するべく、対応するサンプリングレートに基づいて前記サンプリングされたサンプルセットの初期重要性値を補正するように構成されたプライマリ補正サブモジュールを含み、
    前記重要性値は、前記初期重要性値に正比例しており、且つ、前記サンプリングされたサンプルセットの前記サンプリングレートには反比例している請求項9に記載の機械学習システムをトレーニングするシステム。
  14. 前記重要性値判定モジュールは、
    予め設定された規則に従って、最新のサンプリング期間に対応する前記サンプルセットの前記重要性値を増大させるように構成されたセカンダリ補正サブモジュール、
    を更に含む請求項13に記載の機械学習システムをトレーニングするシステム。
  15. 前記予め設定された規則は、
    増大の後の前記最新のサンプリング期間に対応する前記サンプルセットの前記重要性値が、増大の前の前記最新のサンプリング期間に対応する前記サンプルセットの前記重要性値に正比例しており、且つ、前記サンプルセットの合計数に正比例していること、
    を含む請求項14に記載の機械学習システムをトレーニングする方法。
  16. 前記サンプリングレート設定モジュールは、前記サンプルセットの前記サンプリングレートが前記サンプルセットに対応する後のサンプリング期間において相対的に大きくなるよう設定するように構成されている請求項9に記載の機械学習システムをトレーニングするシステム。
JP2018544075A 2016-02-29 2017-02-16 機械学習システムをトレーニングする方法及びシステム Active JP6991983B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610113716.1A CN107133190A (zh) 2016-02-29 2016-02-29 一种机器学习***的训练方法和训练***
CN201610113716.1 2016-02-29
PCT/CN2017/073719 WO2017148266A1 (zh) 2016-02-29 2017-02-16 一种机器学习***的训练方法和训练***

Publications (3)

Publication Number Publication Date
JP2019512126A true JP2019512126A (ja) 2019-05-09
JP2019512126A5 JP2019512126A5 (ja) 2020-03-26
JP6991983B2 JP6991983B2 (ja) 2022-01-14

Family

ID=59720591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018544075A Active JP6991983B2 (ja) 2016-02-29 2017-02-16 機械学習システムをトレーニングする方法及びシステム

Country Status (5)

Country Link
US (2) US11720787B2 (ja)
JP (1) JP6991983B2 (ja)
CN (1) CN107133190A (ja)
TW (1) TWI796286B (ja)
WO (1) WO2017148266A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985651A (zh) * 2019-05-22 2020-11-24 ***通信集团福建有限公司 业务***运维方法和装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133190A (zh) 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种机器学习***的训练方法和训练***
JP2019086928A (ja) * 2017-11-06 2019-06-06 ファナック株式会社 制御装置及び機械学習装置
TWI651664B (zh) * 2017-11-15 2019-02-21 財團法人資訊工業策進會 模型生成伺服器及其模型生成方法
CN109325118B (zh) * 2018-09-03 2023-06-27 平安科技(深圳)有限公司 不平衡样本数据预处理方法、装置和计算机设备
US11379760B2 (en) 2019-02-14 2022-07-05 Yang Chang Similarity based learning machine and methods of similarity based machine learning
CN113396562B (zh) * 2019-02-27 2022-12-06 华为技术有限公司 人工智能增强数据采样
CN113010500B (zh) * 2019-12-18 2024-06-14 天翼云科技有限公司 用于dpi数据的处理方法和处理***
CN114092632A (zh) 2020-08-06 2022-02-25 财团法人工业技术研究院 标注方法、应用其的装置、***、方法及计算机程序产品
CN114357069B (zh) * 2021-12-23 2024-05-28 微梦创科网络科技(中国)有限公司 一种基于分布式存储的大数据采样方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072459A1 (ja) * 2006-12-11 2008-06-19 Nec Corporation 能動学習システム、能動学習方法、及び能動学習用プログラム
JP2009093250A (ja) * 2007-10-04 2009-04-30 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2014016895A (ja) * 2012-07-10 2014-01-30 Canon Inc 情報抽出装置、情報抽出方法及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001247336B2 (en) * 2000-03-10 2006-02-02 Smiths Detection, Inc. Control for an industrial process using one or more multidimensional variables
US8315817B2 (en) * 2007-01-26 2012-11-20 Illumina, Inc. Independently removable nucleic acid sequencing system and method
US8706742B1 (en) * 2009-04-22 2014-04-22 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
CN102156907A (zh) * 2010-02-11 2011-08-17 中国科学院计算技术研究所 面向qa***的质检方法
CN101968851B (zh) * 2010-09-09 2012-08-08 西安电子科技大学 基于字典学习上采样的医学影像处理方法
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
JP5942651B2 (ja) * 2012-07-10 2016-06-29 沖電気工業株式会社 入力装置
US9413779B2 (en) * 2014-01-06 2016-08-09 Cisco Technology, Inc. Learning model selection in a distributed network
CN104166668B (zh) * 2014-06-09 2018-02-23 南京邮电大学 基于folfm模型的新闻推荐***及方法
US10311375B2 (en) * 2014-10-16 2019-06-04 Nanyang Technological University Systems and methods for classifying electrical signals
DE102016101665A1 (de) * 2015-01-29 2016-08-04 Affectomatics Ltd. Auf datenschutzüberlegungen gestützte filterung von messwerten der affektiven reaktion
CN107133190A (zh) 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种机器学习***的训练方法和训练***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072459A1 (ja) * 2006-12-11 2008-06-19 Nec Corporation 能動学習システム、能動学習方法、及び能動学習用プログラム
US20100005043A1 (en) * 2006-12-11 2010-01-07 Yoshiko Yamashita Active learning system, active learning method and program for active learning
JP2009093250A (ja) * 2007-10-04 2009-04-30 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2014016895A (ja) * 2012-07-10 2014-01-30 Canon Inc 情報抽出装置、情報抽出方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985651A (zh) * 2019-05-22 2020-11-24 ***通信集团福建有限公司 业务***运维方法和装置

Also Published As

Publication number Publication date
US20230342607A1 (en) 2023-10-26
TW201737115A (zh) 2017-10-16
WO2017148266A1 (zh) 2017-09-08
JP6991983B2 (ja) 2022-01-14
TWI796286B (zh) 2023-03-21
CN107133190A (zh) 2017-09-05
US11720787B2 (en) 2023-08-08
US20180365523A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
JP2019512126A (ja) 機械学習システムをトレーニングする方法及びシステム
JP6804668B2 (ja) ブロックデータ検証方法および装置
CN104504084B (zh) 确定用户留存率的方法及装置
CN109561052B (zh) 网站异常流量的检测方法及装置
CN105183669A (zh) 一种数据存储方法及装置
WO2021169386A1 (zh) 一种图数据处理方法、装置、设备、介质
CN106648839B (zh) 数据处理的方法和装置
CN108228443B (zh) 一种web应用的测试方法及装置
CN109034880A (zh) 收入预测方法及装置
CN110209582A (zh) 代码覆盖率的统计方法及装置、电子设备、存储介质
CN110019260B (zh) 一种用户数据的更新方法及相关设备
CN111798263A (zh) 一种交易趋势的预测方法和装置
CN112333294A (zh) 日志归并方法、装置、介质和设备
CN116560968A (zh) 一种基于机器学习的仿真计算时间预测方法、***及设备
CN110097361B (zh) 一种基于x11算法的区块链动态算力共识方法及计算机***
CN112564996A (zh) 压力测试流量调度、控制方法、设备以及计算机可读介质
CN107977923B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN108243037B (zh) 网站流量异常确定方法及装置
CN111125087A (zh) 数据的存储方法及装置
CN111147082B (zh) 一种证券交易数据压缩方法及装置
CN110704742B (zh) 一种特征提取方法及装置
CN110019068B (zh) 一种日志文本处理方法和装置
CN113361719A (zh) 基于图像处理模型的增量学习方法和图像处理方法
CN107645541B (zh) 数据存储方法、装置及服务器
CN109582295B (zh) 一种数据处理方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211101

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211208

R150 Certificate of patent or registration of utility model

Ref document number: 6991983

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150