WO2020039790A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2020039790A1
WO2020039790A1 PCT/JP2019/027681 JP2019027681W WO2020039790A1 WO 2020039790 A1 WO2020039790 A1 WO 2020039790A1 JP 2019027681 W JP2019027681 W JP 2019027681W WO 2020039790 A1 WO2020039790 A1 WO 2020039790A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
learning data
value
threshold
curriculum
Prior art date
Application number
PCT/JP2019/027681
Other languages
English (en)
French (fr)
Inventor
清彰 松井
崇史 森谷
隆朗 福冨
雄介 篠原
山口 義和
岡本 学
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2020039790A1 publication Critical patent/WO2020039790A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • curriculum learning is a method of clustering various learning data into a plurality of classes based on a certain criterion, for example, the difficulty of data learning, and performing learning from simpler learning data. This method is effective when learning an acoustic model that adapts to a plurality of environments at the same time, since data of appropriate difficulty is learned at appropriate timing.
  • SPL Self- Paced Learning
  • SPLD Self-Paced Learning with Diversity
  • the present invention has been made in view of the above points, and has as its object to improve the effect of curriculum learning.
  • the information processing apparatus inputs a plurality of learning data to a model to be subjected to curriculum learning, calculates a value of a loss function for each of the learning data, and calculates statistical information of the value.
  • a calculating unit for calculating, based on the statistical information, a ratio of a plurality of parameter values for calculating a threshold value to the value for selecting learning data to be used in each iteration of the curriculum learning, the threshold value;
  • FIG. 3 is a diagram illustrating a hardware configuration example of a learning device 10 according to the embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a functional configuration example of a learning device 10 according to the embodiment of the present invention.
  • 5 is a flowchart for explaining an example of a processing procedure executed by the learning device 10. It is a figure showing an example of a frequency distribution of loss.
  • FIG. 9 is a diagram illustrating an example in which learning data is separated into upper M [%] and lower (100 ⁇ M) [%]. It is a figure showing an example of a standard of a threshold of each repetition.
  • FIG. 1 is a diagram illustrating an example of a hardware configuration of a learning device 10 according to an embodiment of the present invention.
  • the learning device 10 of FIG. 1 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, and the like, which are mutually connected by a bus B.
  • a program for realizing the processing in the learning device 10 is provided by a recording medium 101 such as a CD-ROM.
  • a recording medium 101 such as a CD-ROM.
  • the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100.
  • the program need not always be installed from the recording medium 101, and may be downloaded from another computer via a network.
  • the auxiliary storage device 102 stores installed programs and also stores necessary files and data.
  • the memory device 103 reads out the program from the auxiliary storage device 102 and stores it when an instruction to start the program is issued.
  • the CPU 104 executes functions related to the learning device 10 according to a program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 2 is a diagram illustrating an example of a functional configuration of the learning device 10 according to the embodiment of the present invention.
  • the learning device 10 includes a preprocessing unit 11, a parameter calculation unit 12, a learning data selection unit 13, a model learning unit 14, and the like. These units are realized by a process that causes the CPU 104 to execute one or more programs installed in the learning device 10.
  • the learning device 10 also uses a learning model storage unit 121, a corpus pool storage unit 122, a selected data storage unit 123, and the like. Each of these storage units can be realized by using, for example, the auxiliary storage device 102 or the memory device 103, or a storage device that can be connected to the learning device 10 via a network.
  • the learning model storage unit 121 stores a model M1 (for example, a DNN model) which is an acoustic model to be learned.
  • a model M1 for example, a DNN model
  • the initial state (initial model) of the model M1 has already been learned by a general learning method using a corpus of a certain size.
  • “a certain size” is an amount generally considered to be sufficient for learning a DNN model. For example, in the case of speech recognition, an amount of at least about 100 hours is expected. A smaller amount of data may be used, but the expected effect is expected to be smaller.
  • the corpus pool storage unit 122 stores a plurality of corpuses as learning data for the curriculum learning of the model M1.
  • one corpus is a set of a plurality of learning data (data for speech recognition).
  • three corpuses c1, c2, and c3 are stored in the corpus pool storage unit 122.
  • the corpus c1 is, for example, a set of learning data having relatively high sound quality.
  • the corpus c2 is, for example, a set of learning data in which distant utterances are collected.
  • the corpus c3 is a set of learning data uttered in an environment where noise is mixed.
  • the corpus classification method is not limited to a predetermined method.
  • the selected data storage unit 123 stores, for each repetition in the curriculum learning, learning data selected as a learning target.
  • the learning data stored in the selected data storage unit 123 is removed from the corpus pool storage unit 122.
  • SPLD Self-Paced Learning with Diversity
  • FIG. 3 is a flowchart illustrating an example of a processing procedure performed by the learning device 10.
  • step S101 the preprocessing unit 11 substitutes 1 for a variable n.
  • the variable n is a variable indicating the order of repetition in curriculum learning.
  • the n-th repetition is referred to as “repetition n”.
  • the preprocessing unit 11 executes a loop process L1 including steps S102 and S103 for each corpus.
  • the corpus to be processed in the loop processing L1 is called a “target corpus”.
  • step S102 for each piece of learning data included in the target corpus, the preprocessing unit 11 inputs the learning data to the model M1, and a value of a loss function (hereinafter, referred to as “loss”) for the output from the model M1. Is calculated. Subsequently, the preprocessing unit 11 calculates statistical information on the loss calculated for each learning data (S103). Here, a loss distribution is derived as statistical information.
  • a loss distribution is derived as statistical information.
  • the preprocessing unit 11 may generate a frequency distribution as illustrated in FIG. 4 by sorting the losses of all learning data in ascending order across all corpora. The preprocessing unit 11 inputs the statistical information (frequency distribution, sorted result of the loss of each corpus in ascending order) to the parameter calculation unit 12.
  • the parameter calculation unit 12 separates the loss of all learning data into upper M [%] and lower (100-M) [%] across all corpora based on the statistical information.
  • the value of the loss is searched (S104).
  • the value of M is set in advance by the user. However, M is preferably a very large value less than 100. By doing so, it is possible to consider the possibility that the learning data near the bottom when sorting in the order of loss is outlier data that should not be used for learning.
  • FIG. 5 is a diagram showing an example in which the learning data is separated into upper M [%] and lower (100 ⁇ M) [%].
  • FIG. 5 shows an example in which the value of M is 99.
  • the parameter calculation unit 12 executes a loop process L2 including steps S105 to S110 for each corpus.
  • the corpus to be processed in the loop processing L2 is called a “target corpus”.
  • step S105 the parameter calculation unit 12 sorts the learning data in the target corpus in ascending order of loss. That is, the sorting target here is limited to the learning data in the target corpus. Subsequently, the parameter calculation unit 12 substitutes 1 for a variable i (S106).
  • the variable i is a variable corresponding to the order of the learning data in the target corpus (hereinafter, referred to as “order in the corpus”) in the sort order in step S105.
  • order in the corpus the i-th learning data is referred to as “learning data i”.
  • a loop process L3 including steps S107 to S110 is executed for each learning data in the target corpus.
  • step S107 the parameter calculation unit 12, a threshold value thr n on learning data i in the repeating n, calculated based on the following equation (1) (S106).
  • Equation (1) is the last iteration (Nth iteration) by changing the threshold in an arithmetic progression as shown by the broken line in FIG. 6 according to the learning iteration (increase in n).
  • threshold is an expression that aims to reach thr 'N.
  • the dashed line indicating the threshold value thr n are shown eight.
  • threshold thr n is also dependent on the corpus rank i.
  • the broken lines shown in FIG. 6 is a measure of the last threshold thr n. Threshold thr n of each learning data is different.
  • Equation (1) the value of r is a parameter set in advance by the user.
  • r the theoretical basis of equation (1) will be described.
  • the threshold thr for curriculum determination is
  • ⁇ and ⁇ are constant parameters for determining thr, and are called an age term and a diversity weight, respectively.
  • the larger ⁇ is, the easier it is to select learning data from a plurality of corpus.
  • I is the rank in the corpus.
  • the threshold thr is simply
  • thr as a guide is obtained in the form of a general term of an arithmetic progression from the number of times of learning and the value of the loss at the last iteration, as described with reference to equation (1). That is, the number of repetitions N times, is currently n th iteration, 'When N, first term: thr' threshold values of the order of the time of the last iteration thr N / N, Tolerance: thr 'of N / N As an arithmetic progression,
  • the curricular parameter (thr n ) is automatically determined by determining the ratio r of each value of ⁇ and ⁇ as a parameter. can do.
  • r is large, the diversity weight becomes small, and the order in each corpus is not considered much.
  • r is small, the age term becomes small, and data is easily obtained from each corpus.
  • the ratio r is a parameter that cannot be automatically determined and needs to be arbitrarily determined at the time of learning, and may be freely set by the user according to a desired learning style.
  • the threshold thr n on learning data i in the total N times in n th iteration can be determined based on equation (1).
  • Parameter calculation unit 12 inputs the threshold thr n learning data selection unit 13.
  • the learning data selection unit 13 compares the loss and threshold thr n training data i (S108). If the loss is less than the threshold thr n (No in S108), the learning data selection unit 13, a learning data i, moves from a corpus pool storage unit 122 to the selection-data storage unit 123 (S109). That is, the learning data i is deleted from the target corpus in the corpus pool storage unit 122. Therefore, in the (n + 1) th and subsequent repetitions, the learning data i is not subjected to the processing in S102 to S110. Subsequently, the learning data selection unit 13 adds 1 to the variable i (S110).
  • the loop processing L3 for the target corpus ends.
  • Learning data because they are sorted in ascending order, loss of learning data i is, where there is an increasing trend, the threshold thr n is reduced with the increase of i (stricter) for, or later of learning data i This is because it is obvious that the threshold value thr n does not become smaller.
  • the model learning unit 14 inputs all the learning data stored in the selected data storage unit 123 to the model M1, and repeatedly learns n for the model M1. Perform (S111). As a result, the parameters of the model M are updated.
  • the learning may be performed using a known technique (a general DNN optimization method).
  • the model learning unit 14 adds 1 to the variable n (S112). Subsequently, the model learning unit 14 compares the value of the variable n with N (S113).
  • the threshold value used in the curriculum learning can be calculated from the statistical information of the learning data group. Therefore, it can be expected that a threshold suitable for the learning data group is obtained. As a result, the effect of curriculum learning can be improved.
  • the learning data selected in the already executed repetition is deleted from the corpus pool storage unit 122 and moved to the selected data storage unit 123. That is, the learning data selected in the n-th repetition is not subjected to the calculation of the loss or the comparison with the threshold or the like after the (n + 1) -th iteration. As a result, the efficiency of curriculum learning can be improved.
  • model M1 is a model relating to speech recognition.
  • the present embodiment is applicable to, for example, curriculum learning for various other models such as recognition of handwritten characters and image recognition. Is also applicable.
  • the frequency distribution of the loss calculated for each learning data is an example of statistical information on the loss.
  • other indices such as the average, variance, or median of the loss are used. May be used.
  • the average value (or the median value) of the losses of the m corpora is represented by ⁇ 1 to ⁇ m, these are sorted in the order of the losses, and the minimum value and the maximum value are obtained.
  • the minimum value of the loss is reached in the lmin-th loop and the maximum value of the loss is reached in the lmax-th loop, the first to lmin-th and the lmin-lmax-th and the lmax-last-to-last are considered.
  • the learning device 10 is an example of an information processing device.
  • the pre-processing unit 11 is an example of a calculation unit.
  • the parameter calculator 12 is an example of a calculator.
  • the learning data selection unit 13 is an example of a selection unit.
  • the model learning unit 14 is an example of a learning unit.
  • the ratio r is an example of a ratio of values of a plurality of parameters for calculating a threshold.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置は、カリキュラム学習の対象のモデルに対して複数の学習データを入力して、前記学習データごとに損失関数の値を計算し、前記値の統計情報を計算する計算部と、前記統計情報と、前記カリキュラム学習の各繰り返しにおいて利用する学習データを選定するための前記値に対する閾値を計算するための複数のパラメータの値の比率とに基づいて、前記閾値を算出する算出部と、を有することで、カリキュラム学習の効果を向上させる。

Description

情報処理装置、情報処理方法及びプログラム
 本発明は、情報処理装置、情報処理方法及びプログラムに関する。
 音声認識の実用場面においては、DNN(Deep Neural Network)に基づく音響モデルを用いた技術が広く用いられている。
 音響モデルの安定的な学習法の一つとして、カリキュラム学習と呼ばれる手法が存在する(例えば、非特許文献1参照)。カリキュラム学習とは、或る基準、例えば、データの学習の難易度に基づいて、多彩な学習データを複数のクラスにクラスタリングし、より平易な学習データから学習を行う手法である。この手法は、適切なタイミングで適切な難易度のデータを学習させていくため、複数の環境に同時に適応するような音響モデルを学習する際に有効である。
 カリキュラム学習の手法自体については様々な手法が提案されており、その中でもSPL(Self- Paced Learning)は、自動で学習カリキュラムを獲得する手法である(例えば、非特許文献2参照)。更に、SPLに多様性の観点を考慮した、SPLD(Self-Paced Learning with Diversity)と呼ばれる手法も存在する(例えば、非特許文献3参照)。
Y. Bengio, et al. "Curriculum learning", Proceedings of the 26th annual international conference on machine learning, ACM, 2009. K. M. Pawan, P. Benjamin and K. Daphne, "Self-paced learning for latent variable models", Advances in Neural Information Processing Systems, pp.1189-1197, 2010. L. Jiang, et al. "Self-paced learning with diversity", Advances in Neural Information Processing Systems, 2014.
 しかしながら、カリキュラム学習を効果的に行うためには、繰り返しの学習に利用する学習データを選定するための閾値が適切に設定される必要が有る。
 本発明は、上記の点に鑑みてなされたものであって、カリキュラム学習の効果を向上させることを目的とする。
 そこで上記課題を解決するため、情報処理装置は、カリキュラム学習の対象のモデルに対して複数の学習データを入力して、前記学習データごとに損失関数の値を計算し、前記値の統計情報を計算する計算部と、前記統計情報と、前記カリキュラム学習の各繰り返しにおいて利用する学習データを選定するための前記値に対する閾値を計算するための複数のパラメータの値の比率とに基づいて、前記閾値を算出する算出部と、を有する。
 カリキュラム学習の効果を向上させることができる。
本発明の実施の形態における学習装置10のハードウェア構成例を示す図である。 本発明の実施の形態における学習装置10の機能構成例を示す図である。 学習装置10が実行する処理手順の一例を説明するためのフローチャートである。 ロスの度数分布の一例を示す図である。 学習データを上位M[%]と下位(100-M)[%]に分離した例を示す図である。 各繰り返しの閾値の目安の一例を示す図である。
 以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における学習装置10のハードウェア構成例を示す図である。図1の学習装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
 学習装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って学習装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図2は、本発明の実施の形態における学習装置10の機能構成例を示す図である。図2において、学習装置10は、前処理部11、パラメータ算出部12、学習データ選定部13及びモデル学習部14等を有する。これら各部は、学習装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。学習装置10は、また、学習モデル記憶部121、コーパスプール記憶部122及び選定済みデータ記憶部123等を利用する。これら各記憶部は、例えば、補助記憶装置102若しくはメモリ装置103、又は学習装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
 学習モデル記憶部121には、学習対象の音響モデルであるモデルM1(例えば、DNNモデル)が記憶されている。本実施の形態において、モデルM1の初期状態(初期モデル)は、既に、或る程度の大きさのコーパスを用いて、一般的な学習法により学習がなされている状態であるとする。なお、「或る程度の大きさ」とは、一般にDNNモデルの学習に充分と思われる量であり、例えば、音声認識であれば、最低でも100時間程度の分量が期待される。それより少量のデータでもよいが、見込まれる効果は小さくなると考えられる。
 コーパスプール記憶部122には、モデルM1のカリキュラム学習の学習用のデータとして、複数のコーパスが記憶されている。本実施の形態において1つのコーパスは、複数の学習データ(音声認識用のデータ)の集合である。本実施の形態では、コーパスc1、c2及びc3の3つのコーパスがコーパスプール記憶部122に記憶されている。コーパスc1は、例えば、音質が相対的に高い学習データの集合である。コーパスc2は、例えば、遠くの発声が集音された学習データの集合である。コーパスc3は、雑音が混在している環境においてで発声された学習データの集合である。但し、コーパスの分類方法は、所定のものに限定されない。
 選定済みデータ記憶部123には、カリキュラム学習における繰り返しごとに、学習の利用対象として選定された学習データが記憶される。なお、選定済みデータ記憶部123に記憶された学習データは、コーパスプール記憶部122から除去される。
 なお、本実施の形態では、カリキュラム学習法として、SPLD(Self-Paced Learning with Diversity)を使用した場合の例を記載する。
 以下、学習装置10が実行する処理手順について説明する。図3は、学習装置10が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS101において、前処理部11は、変数nに1を代入する。変数nは、カリキュラム学習における繰り返しの順番を示す変数である。以下、n番目の繰り返しを「繰り返しn」という。続いて、前処理部11は、コーパスごとに、ステップS102及びS103を含むループ処理L1を実行する。ループ処理L1において処理対象とされているコーパスを「対象コーパス」という。
 ステップS102において、前処理部11は、対象コーパスに含まれる学習データごとに、当該学習データをモデルM1に入力し、モデルM1からの出力について損失関数の値(以下、「ロス」とうい。)を計算する。続いて、前処理部11は、学習データごとに計算されたロスについて統計情報を計算する(S103)。ここでは、統計情報としてロスの分布が導出される。
 したがって、ループ処理L1が各コーパス(コーパスc1~c3)について実行されると、図4に示されるようなロスの度数分布が統計情報の一例として得られる。図4において、「clean」は、コーパスc1に対応する。「dist」は、コーパスc2に対応する。「noisy」は、コーパスc3に対応する。例えば、前処理部11は、全コーパスに跨って、全学習データのロスを昇順にソートして、図4に示されるような度数分布を生成してもよい。前処理部11は、当該統計情報(度数分布、各コーパスのロスの昇順のソート結果)をパラメータ算出部12へ入力する。
 ループ処理L1に続いて、パラメータ算出部12は、当該統計情報に基づいて、全コーパスに跨って、全学習データのロスを上位M[%]と下位(100-M)[%]に分離するロスの値を探索する(S104)。Mの値は、予めユーザによって設定される。但し、Mは100未満の非常に大きい値がよい。そうすることで、ロスの順でソートした際の最下位付近の学習データが、学習に使用しないほうが良い外れ値のデータである可能性を考慮することができる。
 図5は、学習データを上位M[%]と下位(100-M)[%]に分離した例を示す図である。図5では、Mの値が99である例が示されている。
 パラメータ算出部12は、この上位M%とそれ以下を分離するロスの値を、カリキュラム学習の最後の繰り返し(例えば、N回繰り返すのであれば、N回目の繰り返し)で目安とすべき閾値(以下、「thr'」という。)とる。図5の例では、thr'=0.68である。なお、Nの値は、予め、ユーザによって設定される。
 続いて、パラメータ算出部12は、コーパスごとに、ステップS105~S110を含むループ処理L2を実行する。ループ処理L2において処理対象とされているコーパスを「対象コーパス」という。
 ステップS105において、パラメータ算出部12は、対象コーパス内の学習データをロスの昇順にソートする。すなわち、ここでのソートの対象は、対象コーパス内の学習データに限られる。続いて、パラメータ算出部12は、変数iに1を代入する(S106)。変数iは、ステップS105でのソート順における、対象コーパス内の学習データの順番(以下、「コーパス内順位」という。)に対応する変数である。以下、i番目の学習データを「学習データi」という。
 続いて、対象コーパス内の学習データごとに、ステップS107~S110を含むループ処理L3が実行される。
 ステップS107において、パラメータ算出部12は、繰り返しnにおける学習データiに対する閾値thrを、以下の式(1)に基づいて算出する(S106)。
Figure JPOXMLDOC01-appb-M000001
 式(1)は、学習の繰り返し(nの増加)に応じて、図6の破線に示されるように等差数列的に閾値を変化させていくことで、最後の繰り返し(N回目の繰り返し)の閾値がthr'に到達することを目指す式である。なお、図6では、N=8である例に対応する。したがって、閾値thrを示す破線が8本示されている。また、式(1)より明らかなように、閾値thrは、コーパス内順位iにも依存する。したがって、図6に示した破線は、あくまでも閾値thrの目安である。各学習データの閾値thrは異なるからである。
 式(1)において、rの値は、予めユーザによって設定されるパラメータである。ここで、r及び式(1)の理論的根拠について説明する。
 SPLDの場合、カリキュラム決定のための閾値thrは、
Figure JPOXMLDOC01-appb-M000002
で表される。ここで、λ、γは、thr決定のための定数のパラメータであり、それぞれ、年齢項、多様性重みと呼ばれる。λが大きい場合、よりロスの大きい学習データ(=モデルにとって難しい学習データ)を学習に取り入れやすくなる。また、γが大きいほど、複数のコーパスから学習データを広く選定しやすくなる。また、iはコーパス内順位である。
 コーパス内順位による逓減項を考慮しない場合、閾値thrは、単に、
Figure JPOXMLDOC01-appb-M000003
のように、λとγの和で表される。このときのλとγの和が、各繰り返しにおける閾値の目安値と等しくなるようにする。本実施の形態において、目安とするthrは、式(1)に関して説明したように、学習の繰り返し回数と最終繰り返し時のロスの値から等差数列の一般項の形で求められる。すなわち、繰り返し回数がN回、現在がn回目の繰り返しであり、最終繰り返し時の目安の閾値の値がthr'とすると、初項:thr'/N、公差:thr'/Nの等差数列として、
Figure JPOXMLDOC01-appb-M000004
と表せる。例えば、thr'=0.68、N=8であれば、thr'=(n×0.68)/8=0.85nである。
 また、λとγをthrを用いて考える。式(3)において、λ=r×thr'(但し、rは0以上1以下の実数)と表すと、γ=(1-r)×thr'と表せる。例えば、thr'=0.85nであり、r=0.8の場合、λ=0.8×thr'=0.68nである。また、γ=0.2×thr'=0.017nである。
 ここで、thr'は、式(3)のとおり決められているので、λ及びγのぞれぞれの値の比率rを媒介変数として決めることで、カリキュラムパラメータ(thr)を自動で決定することができる。このrが大きい場合は、多様性重みが小さくなるため、各コーパス内の順位をあまり考慮しなくなる。rが小さい場合、年齢項が小さくなり、各コーパスからデータを得やすくなる一方で、簡単なタスクでも、順位が低くなると選定しづらくなる挙動を示す。この比率rは、自動決定できず学習時に恣意的に決める必要があるパラメータであり、望む学習のスタイルに応じてユーザが自由に設定すればよい。
 上記より、全N回中n回目の繰り返しにおける学習データiに対する閾値thrは、式(1)に基づいて求めることができる。パラメータ算出部12は、閾値thrを学習データ選定部13へ入力する。
 続いて、学習データ選定部13は、学習データiのロスと閾値thrとを比較する(S108)。当該ロスが閾値thr未満である場合(S108でNo)、学習データ選定部13は、学習データiを、コーパスプール記憶部122から選定済みデータ記憶部123へ移動する(S109)。すなわち、学習データiは、コーパスプール記憶部122内の対象コーパスから削除される。したがって、n+1回目以降の繰り返しにおいて、学習データiは、S102~S110の処理対象とはされない。続いて、学習データ選定部13は、変数iに1を加算する(S110)。
 ループ処理L3において、学習データiのロスが閾値thr以上となると(S108でNo)、対象コーパスについてのループ処理L3は終了する。学習データは、昇順にソートされているため、学習データiのロスは、増加傾向に有るところ、閾値thrは、iの増加に伴って小さくなる(厳しくなる)ため、以降の学習データiが、閾値thrより小さくなることがないのは明らかだからである。
 全てのコーパスについてループ処理L2が実行されると、モデル学習部14は、選定済みデータ記憶部123に記憶されている全学習データをモデルM1に入力して、モデルM1について、繰り返しnの学習を行う(S111)。その結果、モデルMのパラメータが更新される。なお、学習は、公知の技術(一般的なDNN最適化法)を用いて行われればよい。
 続いて、モデル学習部14は、変数nに1を加算する(S112)。続いて、モデル学習部14は、変数nの値をNと比較する(S113)。
 変数nの値がN以下であれば(S113でNo)、ループ処理L1以降が繰り返される。この際、ループ処理L1では、学習によってパラメータが変化したモデルM1が利用される。したがって、同じ学習データに対するロスの値が変化する可能性が有る。一方、変数nの値がNを超えていれば(S113でYes)、図3の処理は終了する。
 上述したように、本実施の形態によれば、カリキュラム学習において利用される閾値を、学習データ群の統計情報から算出することができる。したがって、学習データ群に適した閾値が得られることを期待することがきる。その結果、カリキュラム学習の効果を向上させることができる。
 また、本実施の形態によれば、既に実行された繰り返しにおいて選定された学習データは、コーパスプール記憶部122から削除され、選定済みデータ記憶部123に移動される。すなわち、n回目の繰り返しにおいて選定された学習データについては、n+1回目以降においてロスの計算や、閾値との比較等の実行対象とはされない。その結果、カリキュラム学習の効率性を向上させることができる。
 なお、本実施の形態では、モデルM1が音声認識に関するモデルである例を示したが、本実施の形態は、例えば、手書き文字の認識や画像認識等、他の各種のモデルについてのカリキュラム学習にも適用可能である。
 また、学習データごとに計算されたロスの度数分布が当該ロスについての統計情報の一例である例を説明したが、当該統計情報として、当該ロスの平均、分散、又は中央値等、他の指標が用いられてもよい。例えば、m個のコーパスのロスの平均値(あるいは中央値)を、それぞれμ1~μmで表す場合、これらをロスの順にソートし、最低値、最大値を得る。この時、年齢項についてロスの最低値にlmin回目のループで到達、ロスの最高値にlmax回目のループで到達することを考え、1~lmin回目、及びlmin回目~lmax回目、lmax回目~最終ループまでを等分するように各ループにおける閾値の初期値を与えていくことで、カリキュラムを設定することができる。例えば、lmin=1、lmax=N(Nは学習のループ回数)とする場合、ロスの平均値の最低値から最高値までを学習ループ回数で等分するような閾値の設定となる。
 なお、本実施の形態において、学習装置10は、情報処理装置の一例である。前処理部11は、計算部の一例である。パラメータ算出部12は、算出部の一例である。学習データ選定部13は、選定部の一例である。モデル学習部14は、学習部の一例である。比率rは、閾値を計算するための複数のパラメータの値の比率の一例である。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10     学習装置
11     前処理部
12     パラメータ算出部
13     学習データ選定部
14     モデル学習部
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    CPU
105    インタフェース装置
121    学習モデル記憶部
122    コーパスプール記憶部
123    選定済みデータ記憶部
B      バス

Claims (8)

  1.  カリキュラム学習の対象のモデルに対して複数の学習データを入力して、前記学習データごとに損失関数の値を計算し、前記値の統計情報を計算する計算部と、
     前記統計情報と、前記カリキュラム学習の各繰り返しにおいて利用する学習データを選定するための前記値に対する閾値を計算するための複数のパラメータの値の比率とに基づいて、前記閾値を算出する算出部と、
    を有することを特徴とする情報処理装置。
  2.  前記算出部は、更に、前記繰り返しの回数に基づいて、前記閾値を算出する、
    ことを特徴とする請求項1記載の情報処理装置。
  3.  前記閾値と前記学習データごとの前記値との比較に基づいて、前記複数の学習データの中から学習データを選定する選定部、
    を有することを特徴とする請求項1又は2記載の情報処理装置。
  4.  前記選定部により選定される学習データを利用して、前記モデルの学習を行う学習部、
    を有することを特徴とする請求項3記載の情報処理装置。
  5.  カリキュラム学習の対象のモデルに対して複数の学習データを入力して、前記学習データごとに損失関数の値を計算し、前記値の統計情報を計算する計算手順と、
     前記統計情報と、前記カリキュラム学習の各繰り返しにおいて利用する学習データを選定するための前記値に対する閾値を計算するための複数のパラメータの値の比率とに基づいて、前記閾値を算出する算出手順と、
    をコンピュータが実行することを特徴とする情報処理方法。
  6.  カリキュラム学習の対象のモデルに対して複数の学習データを入力して、前記学習データごとに損失関数の値を計算し、前記値の統計情報を計算する計算手順と、
     前記統計情報と、前記カリキュラム学習の各繰り返しにおいて利用する学習データを選定するための前記値に対する閾値を計算するための複数のパラメータの値の比率と、前記繰り返しの回数とに基づいて、前記閾値を算出する算出手順と、
    をコンピュータが実行させることを特徴とするプログラム。
  7.  前記閾値と前記学習データごとの前記値との比較に基づいて、前記複数の学習データの中から学習データを選定する選定手順、
    をコンピュータに実行させることを特徴とする請求項6記載のプログラム。
  8.  前記選定手順において選定される学習データを利用して、前記モデルの学習を行う学習手順、
    をコンピュータに実行させることを特徴とする請求項7記載のプログラム。
PCT/JP2019/027681 2018-08-23 2019-07-12 情報処理装置、情報処理方法及びプログラム WO2020039790A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018156480A JP2020030674A (ja) 2018-08-23 2018-08-23 情報処理装置、情報処理方法及びプログラム
JP2018-156480 2018-08-23

Publications (1)

Publication Number Publication Date
WO2020039790A1 true WO2020039790A1 (ja) 2020-02-27

Family

ID=69593137

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/027681 WO2020039790A1 (ja) 2018-08-23 2019-07-12 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2020030674A (ja)
WO (1) WO2020039790A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023527237A (ja) * 2020-05-29 2023-06-27 アーベーベー・シュバイツ・アーゲー 産業プロセスモデル生成システム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7315220B2 (ja) * 2020-02-26 2023-07-26 株式会社ニューギン 遊技機
JP7214672B2 (ja) * 2020-03-13 2023-01-30 株式会社東芝 情報処理装置、情報処理方法及びコンピュータプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023527237A (ja) * 2020-05-29 2023-06-27 アーベーベー・シュバイツ・アーゲー 産業プロセスモデル生成システム

Also Published As

Publication number Publication date
JP2020030674A (ja) 2020-02-27

Similar Documents

Publication Publication Date Title
WO2020039790A1 (ja) 情報処理装置、情報処理方法及びプログラム
EP0672995A2 (en) Construction classification weights matrices for pattern recognition systems using reduced element feature subsets
CN112529153A (zh) 基于卷积神经网络的bert模型的微调方法及装置
Wang et al. A new approach to feature selection in text classification
JP2019153098A (ja) ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム
CN114675975B (zh) 一种基于强化学习的作业调度方法、装置及设备
CN111260056B (zh) 一种网络模型蒸馏方法及装置
CN116403231A (zh) 基于双视图对比学习与图剪枝的多跳阅读理解方法及***
US20140257810A1 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
CN113806543A (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN111950579A (zh) 分类模型的训练方法和训练装置
US12033658B2 (en) Acoustic model learning apparatus, acoustic model learning method, and program
WO2021090518A1 (ja) 学習装置、情報統合システム、学習方法、及び、記録媒体
KR102002549B1 (ko) 다단계 분류모델 생성 방법 및 그 장치
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
JP2021163424A (ja) Aiシステム開発シミュレータ及びハイパーパラメータ最適化方法
Volna et al. Knowledge discovery in dynamic data using neural networks
JP5206197B2 (ja) 規則学習方法、プログラム及び装置
US11481632B2 (en) Classification apparatus and method for optimizing throughput of classification models
CN112488319B (zh) 一种具有自适应配置生成器的调参方法和***
JP2022151502A (ja) プログラム、情報処理装置、及び方法
CN113094504A (zh) 基于自动机器学习的自适应文本分类方法及装置
Remeikis et al. Text categorization using neural networks initialized with decision trees
CN110222190A (zh) 数据增强方法、***、设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19851783

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19851783

Country of ref document: EP

Kind code of ref document: A1